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内 容 提要 


语言 讲解 数据 科学 基础 知识 ， 涵 盖 了 数据 采集 、 清 洗 、 存 储 、 检 索 、 转 换 、 可 视 化 、 高 











级 数据 分 析 《〈 网 络 分 析 )、 统 计 和 机 器 学 习 等 内 容 。 具 体内 容 包括 :数据 科学 的 Python 核心 特性 ， 文 本 数据 、 


数据 库 、 
本 和 

















表格 形式 的 数值 数据 、series 和 frame、 网 络 数据 的 使 用 ， 数 据 的 绘制 ， 概 率 与 统计 ， 机 器 学 习 。 
面向 研究 生 和 本 科 生 、 数 据 科学 教员 、 刚 入 门 的 数据 科学 专业 人 员 ， 以 及 那些 想 拥有 一 本 参考 手 





册 来 帮助 记 住所 有 Python 函数 及 参数 的 开发 人 员 。 
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献 给 我 集美 丽 与 智慧 于 一 身 的 妻子 安娜 。 献 给 我 们 的 孩子 们 : 
优雅 的 芭蕾 三 演员 尤 金 妮 亚 和 浪漫 的 游戏 玩家 罗曼 。 也 献 给 2015 年 


夏天 我 的 第 一 门 数据 科学 课 。 


我 现在 必须 给 你 一 个 小 小 的 科学 指引 ， 来 扰乱 你 的 思路 。 


一 一 英国 小 说 家 Marie Corelli 


ll 


前 


2015 年 夏天 ,我 在 位 于 美国 波士顿 的 萨 福 克 大 学 使 用 Python 教 授 数据 科学 入 门 课程 授课 对 
象 是 一 组 经 过 选拔 的 本 科 生 , 本 书 的 创作 灵感 正 来 源 于 这 门 课 程 。 该 课程 是 两 个 系列 课程 中 的 第 
一 门 课程 ， 重 点 是 数据 的 获取 、 清 洗 、 组 织 和 可 视 化 ,涉及 统计 学 、 机 融 学 习 和 网 络 分 析 等 相关 
内 容 。 


数据 的 处 理 涉及 庞大 的 体系 和 众多 的 Python 模块 〈 例如 数据 库 、 自 然 语言 处 理 框架 、JSON 
和 HTML 解 析 器 ， 以 及 高 性 能 数值 数据 结构 ， 等 等 )。 我 很 快意 识 到 ， 不 仅 是 本 科 生 ， 甚 至 是 经 
验 丰 富 的 专业 人 士 , 也 很 容易 被 这 些 浩瀚 的 知识 所 淹没 。 事实 上 , 不 得 不 承认 ,， 与 我 熟悉 的 领域 
相 比 ， 在 进行 数据 科学 和 网 络 分 析 领 域 的 研究 时 ， 我 需要 论 更 多 时 间 去 使 用 help() 函数 和 浏览 
大 量 Python 网 络 论坛 。 男 外 ,我 有 时 在 课堂 上 会 因为 想 不 起 某 个 函数 名 或 可 选 参 数 而 尴 软 不已。 

作为 课程 的 一 部 分 , 我 针对 多 类 主题 编辑 了 一 套 极 具 参 考 价值 的 备 忘 单 。 这些 备 忘 单 最 终 演 
变 成 了 这 本 书 。 和 希望 本 书 能 够 使 你 从 大 量 函数 名 和 可 选 参数 中 解脱 出 来 ,专注 于 数据 科学 和 数据 
分 析 本 里。 




























































































关于 本 书 

本 书 涵盖 了 数据 采集 、 清 洗 、 存 储 、 检 索 、 转 换 、 可 视 化 、 高 级 数据 分 析 ( 网 络 分 析 )、 统 
计 和 机 器 学 习 等 内 容 。 本 书 不 是 数据 科学 的 综述 或 参考 手册 ,不 过 你 也 能 在 第 1 章 (“什么 是 数据 
科学 ” ) 找到 如 何 开展 数据 科学 的 简要 概述 。 阅 读本 书 需要 的 先 修 知识 包括 数据 科学 的 相关 方法 、 
统计 学 等 。 
第 2 章 总 结 了 Python 数据 结构 ,字符 种、 文件 和 与 Web 相 关 的 函数 , 正则 表达 式 ,以 及 列表 推 
导 式 。 总 结 并 非 用 于 讲授 这 些 知识 ， 而 是 供 你 温习 相关 知识 点 。 掌 握 Python 对 于 一 个 成 功 的 数据 
科学 家 而 言 无 疑 是 非常 重要 的 ， 你 可 以 找到 许多 优秀 的 图 书 ， 进 一 步 学 习 这 门 语言 。 

本 书 的 第 一 部 分 介绍 了 如 何 使 用 不 同类 型 的 文本 数据 ， 包 括 处 理 结构 化 和 非 结构 化 的 文本 ， 
使 用 NumPy 和 Pandas 模 块 处 理 数值 数据 ， 以 及 网 络 分 析 。 还 有 三 章 涉及 数据 分 析 的 三 个 方面 : 使 








































































































用 关系 型 和 非 关 系 型 数据 库 、 数 据 可 视 化 以 及 简单 的 预测 分 析 。 


本 书 是 一 本 半 令 述 半 参 考 性 的 书 。 你 可 以 直接 按 顺 序 阅读 , 也 可 以 先 找 出 你 关心 的 函数 或 概 
念 ， 然 后 查阅 相关 的 说 明和 示例 。 若 是 按 顺 序 阅读 ， 而 你 又 有 一 定 的 Python 编程 经 验 ， 就 可 以 直 
接 跳 过 第 2 章 (“数据 科学 的 Python 核 心 ”)。 如 果 你 不 打算 使 用 外 部 数据 库 ( 比如 MySQL )， 也 可 
以 忽略 第 4 章 (“使 用 数据 库 ”)。 最 后 ， 如 果 你 对 统计 学 已 经 有 一 定 了 解 ， 那 么 完全 可 以 跳 过 第 9 
章 (“概率 与 统计 ”) 的 前 两 个 单元 ， 直 接 阅 读 第 47 单 元 (“以 Python 的 方式 完成 统计 ”)。 



























































关于 读者 
你 可 以 在 此 了 解 自 己 是 否 需 要 本 书 。 


本 书面 向 研究 生 和 本 科 生 、 数 据 科学 教员 、 刚 入 门 的 数据 科学 专业 人 员 ( 特别 是 从 R 语 言 转 
为 使 用 Python 的 人 )， 以 及 那些 想 拥 有 一 本 参考 手册 来 帮助 记 住 所 有 Python 函数 及 参数 的 开发 人 


由 oo 




















如 果 你 是 他 们 中 的 一 员 ， 那 就 不 要 犹 驳 ， 直 接 开 始 阅读 吧 
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关于 软件 


尽管 在 是 否 要 从 Python 2.7 转 到 Python 3.3 或 者 更 高 版 本 这 个 问题 上 ， 目 前 尚 存在 一 定 争论 ， 
但 我 还 是 支持 使 用 新 版 本 的 Python。 许 多 新 的 Python 软件 是 针对 Python 3.3 开 发 的 ,而 且 多 数 遗 留 
软件 都 已 经 成 功 移植 到 Python 3.3。 考 虑 到 这 种 趋势 , 选择 将 过 时 的 Python 2.7 恕 人 并 非 明 智之 举 ， 
即使 它 现在 还 很 流行 ”。 

本 书 所 有 Python 示 例 需 要 用 到 的 模块 都 列 在 了 下 表 中 。 



































表 1 ”本 书 使 用 的 软件 组 件 





包 使 用 的 版 本 包 使 用 的 版 本 

BeautifulSoup 4.3.2 community 0.3 

json 2.0.9 htmlSlib 0.999 
matplotlib 1.4.3 networkx 1.10.0 
nltk 3.1.0 numpy 1.10.1 
pandas 0.17.0 pymongo 3.0.2 
pymysql 0.6.2 python 3.4.3 
Scikit-learn 0.16.1 scipy 0.16.0 





GD Python 2.7 是 2.x 系 列 的 最 后 一 个 版 本 ， 支 持 时 间 到 2020 年 。 一 一 译 者 注 
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在 这 些 模 块 中 , 除了 需要 单独 安装 的 community 版 模块 "和 Python 解 释 器 外 ， 其 他 都 已 经 包含 
在 Anaconda 发 行 版 中 。Anaconda 发 行 版 是 由 Continuum Analytics 公 司 开发 的 免费 软件 ”。 

如 果 你 想 试用 一 下 数据 库 (或 者 你 的 工作 就 要 用 到 数据 库 )， 那 么 你 还 需要 下 载 并 安装 MySQL” 
和 MongoDB 这 两 个 数据 库 。 它 们 都 是 免费 的 ， 能 运行 在 Linux、Mac OS 和 Windows 平 台 上 。 












































关于 引号 

Python 人 允许 用 户 使 用 以 下 方式 表示 字符 串 : ' 单 引号 ' 、" 双 引号 "、'' ' 三 个 单 引号 ''' ,其 
至 是 """ 三 个 双 引 号 """ ( 其 中 后 两 个 可 表示 多 行 字符 串 )。 然 而 ， 不 论 程序 中 使 用 哪 种 引号 ， 当 
打印 字符 串 时 ， 通常 都 使 用 单 引号 。 

许多 其 他 语言 (C、C++、Java ) 会 在 不 同 场合 使 用 单 引 号 和 双 引 号 : 单 引 号 用 于 单个 字符 ， 
双 引 号 用 于 字符 串 。 本 书 沿用 这 种 区 分 方式 一 一 对 单个 字符 使 用 单 引号 ， 对 字符 串 使 用 双 引号 。 


















































关于 本 书 的 论坛 
本 书 的 社区 论坛 可 在 Pragmatic Programmers 网 站 上 找到 ”。 你 可 以 在 论坛 中 提问 、 发 表 评 论 
和 提交 勘误 。 


男 一 个 很 好 的 问答 资源 ( 不 限于 本 书 ) 是 在 Stack Exchange 网 站 上 新 创建 的 数据 科学 板块 ”。 

















轮 到 你 了 

每 章 最 后 都 有 一 个 叫 作 “ 轮 到 你 了 ”的 单元 。 这 个 单元 描述 了 几 个 项 目 , 你 可 以 自己 独立 (或 
与 你 信任 的 人 一 起 ) 完成 这 些 项 目 ， 以 加 强 对 本 书 内 容 的 理解 。 

单个 星 号 (* ) 标记 的 项 目 是 最 简单 的 。 完 成 这 些 项 目 只 需要 前 面 章节 中 提 到 的 函数 方面 的 
知识 。 预 计 不 超过 三 十 分 钟 就 可 以 完成 “ 单 星 项 目 ”。 你 可 以 在 附录 2(“ 单 星 项 目的 解决 方案 ”) 
中 找到 参考 的 解决 方法 。 

两 个 星 号 (** ) 标记 的 是 较 难 的 项 目 。 完 成 这 些 项 目 可 能 需要 一 小 时 甚至 更 长 的 时 间 ， 当 然 
这 也 取决 于 你 的 编程 技能 和 习惯 。“ 两 星 项 目 ” 需 要 使 用 某 些 中 级 数据 结构 和 周密 的 算法 。 
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最 后 ， 标 记 为 三 个 星 写 (*** ) 的 项 目 是 最 难 的 。 一 些 “ 三 星 项 目 ” 甚 至 可 能 没有 一 个 完美 
的 解决 方案 ， 因 此 如 果 你 解 不 出 来 也 不 必 泪 形 。 不 过 ， 通 过 练习 “三 星 项 目 "， 你 一 定 可 以 成 为 
更 出 色 的 程序 员 和 更 优秀 的 数据 科学 家 。 而 且 如 果 你 是 教育 工作 者 ,可 以 考虑 将 “三 星 项 目 ” 作 
为 期 中 作业 。 


现在 ， 让 我 们 开始 吧 ! 

















Dmitry Zinoviev 
dzinoviev@gmail.com 
2016 年 8 月 
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相信 你 对 数据 科学 已 经 有 了 一 些 了 解 , 不 过 我 们 还 是 可 以 一 起 来 回顾 一 下 ! 数据 科学 是 从 数 
据 中 提取 知识 的 学 科 。 它 依赖 于 计算 机 科学 (数据 结构 、 算 法 、 可视化、 大 数据 支持 和 通用 编程 )、 
统计 学 (回归 和 推理 )， 以 及 领域 知识 ( 用 于 提问 和 解释 结果 )。 

传统 意义 上 的 数据 科学 涵盖 多 种 不 同 主题 有些 是 你 可 能 已 经 熟悉 的 , 而 有 些 是 你 将 在 本 书 
中 过 到 的 。 
口 数据 库 ， 提 供 信 息 的 存储 和 集成 。 关 于 关系 型 数据 库 和 文档 存储 的 信息 请 参见 第 4 章 。 
口 文本 分 析 和 自然 语言 处 理 ， 让 我 们 可 以 通过 将 定性 文本 转化 成 定量 变量 ,实现 “用 文字 
计算 ”。 你 是 否 对 情感 分 析 工 具 感 兴趣 ?那么 阅读 本 书 的 第 16 单 元 再 合适 不 过 了 。 
口 数值 数据 分 析 和 数据 挖掘 ， 可 搜索 出 变量 之 间 的 不 变性 和 相互 关系 。 这 是 第 5 章 和 第 6 
章 的 主题 。 
D 复杂 网 络 分 析 ， 其 实 并 不 复杂 。 所 谓 复杂 网 络 ， 是 指 任意 互 连 实体 的 集合 。 第 7 章 介绍 了 
如 何 将 复杂 网 络 分 析 简 单 化 。 
口 数据 可 视 化 ， 不 仅 富 有 美感 ， 而 且 非 常 实 用 ， 尤 其 是 当 你 想 说 服 数据 赞助 商 再 次 提供 赞 
助 的 时 候 。 如 果 说 一 图 胜 千言 ， 那 么 第 8 章 的 价值 就 远 超 过 本 书 的 其 他 部 分 。 
口 机 器 学 习 (包括 聚 类 、 决 策 树 、 分 类 和 神经 网 络 )， 试 图 让 计算 机 学 会 “思考 "， 并 根据 
样本 数据 进行 预测 。 第 10 章 对 如 何 实 现 这 样 的 功能 进行 了 说 明 。 
口 时 间 序列 处 理 ， 或 者 更 一 般 地 说 ， 数 字 信 号 处 理 ， 是 股市 分 析 师 、 经 济 学 家 以 及 音频 和 
视频 领域 的 研究 人 员 不 可 或 缺 的 工具 。 
口 大 数据 分 析 ， 通 常 指 对 频繁 生成 和 获取 的 大 于 1TB 的 非 结构 化 数据 ( 文本、 音频 、 视 频 ) 

进行 分 析 。 大 数据 如 此 之 大 ， 以 至 于 难以 在 本 书 中 进行 完整 的 介绍 。 


不 论 针 对 哪 种 分 析 类 型 ， 数 据 科 学 首先 是 科学 ， 然 后 才 是 魔法 。 因 此 , 它 是 一 个 严格 遵循 以 
数据 采集 为 起 点 、 以 结果 报告 为 终点 的 基本 处 理 过 程 。 在 本 章 中 , 你 将 了 解数 据 科学 的 基本 过 程 ， 
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包括 : 常见 数据 分 析 研 究 的 步骤 、 数 据 的 获取 来 源 ， 以 及 常见 项 目 报告 的 结构 。 


第 1 单元 
数据 分 析 步 又 





常见 的 数据 分 析 研 究 步 又 通常 与 一 般 的 科学 发 现 顺 序 一 致 。 

数据 科学 发 现 从 要 解决 的 问题 和 要 应 用 的 分 析 方式 开始 。 最 简单 的 分 析 类 型 是 描述 性 的 , 通 
常 使 用 一 种 可 视 化 的 形式 给 出 数据 集 总 量 的 描述 。 不 论 你 接 下 来 打算 做 什么 , 至 少 需 要 描述 一 下 
数据 ! 在 探索 性 数据 分 析 的 过 程 中 ,你 需要 尝试 找 出 现 有 变量 之 间 的 相互 关系 。 基 于 统计 的 推断 
分 析 可 以 帮助 你 利用 手头 上 少量 的 数据 样本 , 对 更 大 的 群体 进行 描述 。 预测 分 析 是 从 过 去 的 规律 
中 预测 未 来 。 因 果 分 析 能 找 出 相互 影响 的 变量 。 最后， 机 制 性 数据 分 析 准 确 揭 示 了 一 个 变量 如 何 


影响 另 一 个 变量 。 


然而 ， 分 析 结 果 的 好 坏 依赖 于 数据 的 质量 ， 因 此 引出 了 如 下 问题 : 什么 样 的 数据 集 是 理想 
的 呢 ? 在 理想 情况 下 , 什么 样 的 数据 能 够 解决 问题 呢 ? 另外 , 理想 的 数据 集 可 能 根本 就 不 存在 ， 
或 者 是 很 难 甚至 不 可 能 获取 。 对 于 这 种 情况 ， 一 个 较 小 的 或 者 特征 不 那么 丰富 的 数据 集 还 依然 
有 用 吗 ? 

幸运 的 是 ， 从 Web 或 数据 库 获 取 原 始 数据 并 不 难 ， 有 大 量 基 于 Python 的 工具 可 用 于 下 载 和 解 
析 这 些 数据 。 你 可 以 在 第 2 单元 (“数据 获取 途径 ”) 中 进一步 了 解 这 些 工具 。 


应 该 注意 到 ， 完 美的 数据 是 不 存在 的 。 难 免 会 遇 到 有 丢失 值 、 异 常 值 和 其 他 “ 非 标准 ”项 的 
“ 脏 ” 数 据 。“ 脏 ”数据 的 例子 包括 : 未 来 的 出 生日 期 、 负 年 龄 和 负 体 重 ， 以 及 不 合理 的 电子 邮件 
地 址 (noreply@ )。 因 此 ， 一 旦 获得 了 原始 数据 ， 接 下 来 就 是 使 用 数据 清洗 工具 和 统计 知识 来 正 
则 化 数据 集 。 


完成 上 述 处 理 后 , 就 可 以 使 用 干净 的 数据 ,开展 描述 性 和 探索 性 分 析 。 这 一 步 的 成 果 通常 包 
括 散 点 图 (参考 第 44 单 元 )、 直 方 图 和 统计 总 结 ( 参考 第 46 单 元 )。 它们 赋予 了 你 对 数据 独 有 的 感 
觉 一 一 这 是 一 种 在 后 续 研 究 中 不 可 或 缺 的 对 数据 集 ( 尤其 是 针对 多 维 数据 集 ) 的 直观 认识 。 


现在 离 实现 预测 只 有 一 步 之 禹 了 。 你 手中 的 数据 模型 工具 , 在 经 过 恰当 的 训练 后 ， 就 可 以 实 
现 预测 功能 。 值 得 注意 的 是 ， 不 能 忽视 对 模型 的 质量 及 其 预测 精度 的 评估 ! 


至 此 , 你 可 以 摘 掉 统计 学 家 和 程序 员 的 帽子 , 换 上 一 顶 领域 专家 的 帽子 了 。 你 已 经 得 到 了 
些 成 果 , 但 它们 称 得 上 是 领域 内 的 重要 成 果 吗 ? 换 句 话说 , 是否 有 人 关心 这 些 成 果 , 还 有 ,这些 
成 果 带 来 了 什么 不 一 样 的 认 知 ?设想 一 下 ,你 被 聘用 为 一 名 评论 员 , 来 评价 自己 的 工作 。 你 做 的 
哪些 是 正确 的 , 哪些 是 错误 的 ? 如 果 再 给 你 一 次 机 会 , 哪些 工作 你 能 做 得 更 好 或 者 不 同 ?” 你 是 否 
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会 使 用 不 同 的 数据 ,作出 不 同类 型 的 分 析 ， 提 出 不 同 的 问题 ， 抑 或 建立 一 个 不 同 的 模型 ?一定 有 I 
人 会 提出 这 些 问 题 。 提 前 进行 思考 ,对 你 是 大 有 神 益 的 。 当 你 还 沉浸 在 这 些 字里行间 时 ,寻觅 答 

案 的 征程 已 然 开 始 。 
最 后 ， 你 必须 完成 一 个 报告 ,说明 你 处 理 数据 的 方式 及 理由 、 建 立 了 什么 模型 、 可 能 得 出 什 
么 结论 、 可 能 作出 什么 预测 。 本 章 末 尾 (第 3 单元 ) 讲解 了 报告 的 结构 。 

作为 一 本 数据 科学 领域 的 python 手册， 本 书 的 重点 是 典型 数据 分 析 步 骤 中 早期 的 、 最 随意 ， 
同时 也 是 最 有 创意 的 部 分 : 数据 的 获取 、 清 洗 、 组 织 和 分 级 。 本 书 几 乎 不 涉及 数据 建 模 的 内 容 ， 
包括 预测 数据 的 建 模 。( 当然 ,完全 抛 开 数 据 建 模 是 不 合理 的 ， 毕 竞 这 是 魔法 的 真正 所 在 ! ) 一 般 
来 说 ， 结 果 解 释 、 质 疑 和 报告 非常 依赖 于 特定 的 领域 ， 这 些 内 容 可 在 专门 的 教材 中 找到 。 
















































































第 2 单元 
数据 获取 途径 
数据 获取 涉及 获得 包含 来 自 各 种 输入 器 件 的 数据 源 、 从 器 件 中 提取 数据 ,以 及 将 其 转换 为 适 


于 进一步 处 理 的 表示 方式 ， 如 下 图 所 示 。 


格式 表示 方式 处 理 
非 结构 化 的 

















结构 化 的 

















数据 的 三 个 主要 来 源 是 因特网 ( 即 万 维 网 )、 数 据 库 ， 以 及 本 地 文件 ( 可 能 是 先前 手动 下 载 
或 利用 其 他 软件 下 载 得 到 的 )。 某 些 本 地 文件 可 能 是 通过 Python 程序 生成 的 ， 包 括 序列 化 的 或 
“pickled” 的 数据 ( 更 详细 的 解释 请 参考 第 12 单 元 )。 

来 自 器 件 的 数据 格式 多 种 多 样 。 在 后 续 章 节 中 , 你 将 接触 到 最 流行 的 数据 格式 及 其 对 应 的 数 
据 分 析 方式 和 方法 。 
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口 自然 语言 中 的 非 结 构 化 纯 文本 ( 比如 英语 、 汉 语 ) 

口 结构 化 数据 ， 包 括 : 

和 逗号 分 隔 值 (CSV ) 文件 中 的 表格 数据 

香 数据 库 中 的 表格 数据 

m 使 用 超 文本 标记 语言 (HTML ) 或 更 一 般 的 可 扩展 标记 语言 (XML ) 的 标记 数据 
昌 JavaScript 对 象 表示 法 (JSON ) 中 的 标记 数据 











根据 所 提取 数据 的 原始 结构 , 以 及 进一步 处 理 的 目的 和 性 质 , 本 书 示 例 中 的 数据 均 表 示 为 原 
生 的 Python 数 据 结构 ( 列表 和 字典 ), 或 支持 特定 操作 的 高 级 数据 结构 ( numpy 中 的 数组 和 pandas 





中 的 frame 数 据 )。 
我 将 尽 可 能 地 呈现 一 个 完全 自动 化 的 数据 处 理 流程 ( 获取、 清洗 和 变换 原始 数据 ; 描述 怕 





E 和 


探索 性 数据 分 析 ; 数据 建 模 和 预测 ) 为 此 , 我 避免 使 用 交互 式 GUI 工 具 ， 因 为 GUI 的 处 理 方式 很 











少 能 脚本 化 以 实现 批 处 理 模式 ， 且 几乎 不 记录 任何 处 理 历史 。 为 了 提高 模块 化 程度 、 可 重用 怕 





E 和 


可 恢复 性 , 我 会 把 较 长 的 流程 分 解 为 较 短 的 子 流程 ,并 将 中 间 结 果 保 存 到 Pickle ( 参考 第 12 单 元 ) 








或 JSON (参考 第 15 单 元 ) 文件 中 。 








自动 化 流程 自然 产生 了 可 重用 的 代码 : 一 组 任何 人 都 可 以 执行 的 Python 脚本 。 这 些 脚 本 可 以 
将 原始 数据 转换 为 报告 中 描述 的 最 终结 果 ; 在 理想 情况 下 , 这 一 过 程 不 需要 任何 额外 的 人 机 交互 。 
其 他 研究 人 员 能 使 用 可 重用 的 代码 对 模型 和 结果 进行 验证 , 并 应 用 你 开发 的 程序 解决 他 们 遇 到 的 









































问题 。 
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项 目 报告 是 我 们 (数据 科学 家 ) 向 数据 赞助 商 (客户 ) 提交 的 。 报 告 通常 包括 以 下 内 容 
口 摘要 ( 对 项 目的 一 个 言 简 意 凡 的 描述 ) 

口 引言 

口 所 使 用 的 数据 获取 及 处 理 方法 

口 所 获得 的 结果 (不 包含 中 间 的 和 不 重要 的 结果 ， 应 把 这 些 内 容 放 到 附录 中 ) 

口 结论 


口 附录 











除了 不 是 特别 重要 的 结果 和 图 形 外 , 附录 应 包含 用 于 处 理 数据 的 所 有 可 重用 的 代码 : 可 在 没 











有 命令 行 参数 和 用 户 交互 情况 下 执行 的 、 具 有 良好 注释 的 脚本 。 
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提交 的 最 后 一 部 分 是 原始 数据 : 以 可 复 现 的 方式 执行 代码 所 需 的 所 有 数据 文件 , 除了 由 数据 
赞助 者 提供 且 未 被 修改 的 文件 以 外 。README 文 件 通常 用 于 解释 数据 的 来 源 和 每 个 附加 数据 文 
件 的 格式 。 


上 述 的 结构 仅 作为 项 目 结构 的 建议 , 并 非 一 成 不 变 。 根 据 数据 赞助 商 的 提议 以 及 所 达成 的 共 
识 ， 也许 会 给 出 其 他 的 结构 。 

















轮 到 你 了 


作为 介绍 性 的 一 章 , 你 能 从 本 章 了 解 到 数据 科学 的 基本 过 程 : 常见 数据 分 析 研 究 的 步骤 ， 获 
取 数 据 的 方式 和 各 种 数据 格式 ， 以 及 常见 项 目 报告 的 结构 。 本 书 其 余部 分 介绍 了 在 Python 中 对 基 
本 的 数据 科学 来 说 至 关 重 要 的 特征 , 以 及 为 复杂 度 适 中 的 数据 科学 项 目 提 供 算 法 和 统计 支持 的 各 
种 Python 模块 。 

在 继续 阅读 之 前 , 我 们 通过 一 个 简单 的 项 目 来 热 热身 。 计 算 机 程序 员 有 一 个 良好 的 传统 , 那 
就 是 通过 编写 一 个 输出 “Hello，World!” 的 程序 ， 将 初学 者 引入 新 的 编程 语言 。 我 们 应 该 遵循 
这 个 传统 。 

口 Hello, World!* 

编写 一 个 在 Python 命 令 行 输出 “Hello, World!” 的 程序 。 



























































我 用 了 所 有 我 会 的 语言 与 他 们 沟通 ， 包 括 多 少 懂 一 点 的 高 地 德语 、 低 地 德语 、 拉 丁 
语 、 法 语 、 西 班 牙 语 、 意 大 利 语 和 通用 语 ， 可 惜 都 没有 用 。 
一 一 英 背 爱尔兰 讽刺 作家 Jonathan Swift 





数据 科学 的 Python 核 心 








Python 核 心 的 一 些 特性 对 于 数据 分 析 而 言 至 关 重 要 。 本 章 将 给 出 最 为 重要 的 特性 : 字符 串 函 
数 、 数 据 结 构 、 列 表 推导 式 、 计 数 器 、 文 件 和 和 Web 函数 、 正 则 表达 式 、globbing 以 及 pickling 数 据 。 
通过 学 习 本 章 , 你 将 掌握 如 何 使 用 Python 从 本 地 磁盘 文件 和 网 络 中 提取 数据 ， 用 恰当 的 数据 结构 
存储 数据 ， 定 位 与 给 定 模 式 相 匹 配 的 位 和 片段 ， 以 及 为 方便 后 续 处 理 而 对 Python 对 象 进行 序列 化 
和 反 序 列 化 操作 。 这 些 功 能 并 非 数据 科学 或 数据 分 析 任 务 所 特有 的 ,在 许多 其 他 应 用 中 也 会 用 到 。 

人 们 往往 错误 地 认为 ， 高 级 编程 工具 的 出 现 使 得 低级 编程 过 时 了 。 毕 竞 独立 于 Python 的 
Anaconda 发 行 版 就 提供 了 350 多 个 Python 包 ， 谁 会 需要 自己 去 实现 拆 分 字符 串 和 打开 文件 这 样 低 
级 的 函数 呢 ? 但 是 不 可 和 否认 , 世界 上 依然 存在 大 量 非 标准 的 数据 源 , 处 理 这 些 数据 就 必须 编写 低 
级 的 函数 。 

所 有 的 标准 数据 frame 、series 、CSV 读 取 需 和 文字 分 词 器 ， 都 遵循 其 创建 者 设 定 的 规则 。 一 
且 遇 到 任何 违反 规则 的 情况 ， 这 些 工 具 都 将 束手无策 。 此 时 ， 你 就 应 该 摘 去 数据 科学 家 的 光环 ， 
吹 去 这 本 书 上 的 灰尘 ， 做 回 一 个 谦卑 而 务实 的 程序 员 。 


为 了 接点 “地 气 ”， 你 可 能 需要 了 解 字符 串 函 数 一 一 相关 的 内 容 就 在 第 4 单元 中 。 
















































































第 4 单元 
理解 基本 的 字符 串 函数 








字符 串 是 计算 机 世界 和 人 类 世界 之 间 的 基本 交互 单元 。 最初 ,几乎 所 有 的 原始 数据 都 存储 为 
字符 串 。 在 本 单元 中 ， 你 将 学 习 如 何 评估 和 操作 文本 字符 串 
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本 单元 中 描述 的 所 有 函数 都 是 内 置 的 str 类 的 成 员 函 数 。 

大 小 写 转 换 函 数 返 回 原始 字符 串 s 的 一 个 副本 : Lower() 函数 将 所 有 字符 转换 为 小 写 ; 
upper() 函数 将 所 有 字符 转换 为 大 写 ; capitalize() 函数 将 第 一 个 字符 转换 为 大 写 ， 同 时 将 其 
他 所 有 字符 转换 为 小 写 。 这 些 函数 不 会 影响 非 字母 字符 。 大 小 写 转换 函数 是 规范 化 的 一 个 重要 元 
素 ， 第 16 单 元 讲解 了 规范 化 的 相关 内 容 。 


判定 (predict ) 函数 根据 字符 串 s 是 否 属于 适当 的 类 而 返回 True 或 FaLse: isLower() 函数 检 
查 所 有 字母 字符 是 否 为 小 写 ; isupper() 消 数 检查 所 有 字母 字符 是 否 为 大 写 ; isspace () 函数 检 
查 所 有 字符 是 否 为 空格 ; isdigit() 函数 检查 所 有 字符 是 否 为 范围 0 ~ 9 中 的 十 进 制 数字 ; 
isaLpha() 函数 检查 所 有 字符 是 否 为 a ~ z 或 A ~ Z 范 围 内 的 字母 字符 。 使 用 这 些 函数 , 你 可 以 识别 
有 效 的 单词 、 非 负 整数 、 标 点 符号 等 。 


Python 有 时 会 将 字符 串 数 据 表 示 为 原始 的 二 进 制 数组 ， 而 非 字符 串 ， 尤 其 是 当 数据 来 自 外 部 
源 (外 部 文件 、 数 据 库 或 Web ) 时 。Python 使 用 符号 b 来 标识 二 进 制 数组 。 例 如 ，bin = b"Hello" 
是 一 个 二 进 制 数 组 ; s = “HeLtLo" 是 一 个 字符 串 。s[0] 和 bin[9] 分 别 是 'H' 和 72， 其 中 72 是 字 
符 'H' 的 ASCII 码 。 解 码 函 数 将 二 进 制 数组 转换 为 字符 串 或 反之 : bin.decode() 将 二 进 制 数组 转 
换 为 字符 串 ， 而 s.encode() 将 字符 串 转换 为 二 进 制 数组 。 许 多 Python 函数 都 需要 将 二 进 制 数据 
转换 为 字符 串 ， 然 后 再 做 处 理 。 

字符 串 处 理 的 第 一 步 是 去 除 不 需要 的 空白 ( 包括 换行 符 和 制 表 符 ). 函数 Lstrip()(left strip )、 
rstrip() (right strip ) 和 strip() 分 别 在 字符 串 的 开始 处 、 结 束 处 或 对 整个 字符 串 删 除 所 有 空格 
(不 删除 字符 串 内 部 空格 )。 经 过 这 些 删除 操作 后 ， 得 到 的 可 能 会 是 一 个 空 字符 串 ! 


Hello, world! \t\t\n".strip() 






















































































=> "Hello, world!' 
字符 串通 常 包含 多 个 标记 符 , 用 空格 .冒号 和 逗号 这 样 的 分 隔 符 分 割 。 函 数 split(delim='') 
使 用 deLim 作 为 分 隔 符 , 将 字符 串 s 分 割 为 子 字 符 串 组 成 的 一 个 列表 。 如 果 未 指定 分 隔 符 ，Python 
会 使 用 空白 字符 来 分 割 字 符 串 ， 并 将 所 有 连续 的 空白 合并 : 


"HelLLo， world!".split() # 两 个 空格 | 





























=> ['Hello,', 'world!'] 


"Hello, world!".split(" ") # 两 个 空格 | 


今 ['Hello,', '', 'world!'] 
"www.networksciencelab.com".split(".") 
今 ['www'， 'networksciencelab', 'com'] 





连接 函数 join(1s) 一 一 分 割 函 数 的 姐妹 函数 一 一 将 字符 串 列表 ls 连接 在 一 起 ， 形 成 一 个 字 
符 串 ， 并 使 用 特定 的 对 象 字符 串 作 为 连接 符 。 你 可 以 使 用 join() 函数 重组 字符 串 片 段 : 
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", ".join(["alpha", "bravo", "charlie", "delta"]) 
今 'alpha, bravo, charlie, delta' 

在 这 个 例子 中 ，join() 函数 仅 在 字符 串 之 间 搬 和 人 连接 符 ， 而 在 第 一 个 字符 串 前 或 最 后 一 个 
字符 串 后 都 不 插入 连 接 符 。 这 种 分 割 字符 串 和 再 次 连接 字符 片段 的 操作 ,往往 用 于 将 已 有 的 分 隔 
符 蔡 换 为 给 定 的 连接 符 ， 字 符 串 本 身 看 上 去 并 没有 明显 的 变化 : 


"-".join("1.617.305.1985".split(".")) 















































> '1-617-305-1985， 
有 时 ,为 了 从 字符 串 中 删除 不 需要 的 空白 ,你 可 能 会 同时 使 用 这 两 个 函数 。 当 然 你 也 可 以 使 
用 基于 正则 表达 式 的 替换 来 实现 相同 的 效果 ( 参考 第 10 单 元 第 2 小 )。 


" ".join("This string\ln\r has many\t\tspaces".split()) 

















今 'This string has many spaces' 


函数 find (needle) 返 回 对 象 字 符 串 中 子 字 符 串 needle 第 一 次 出 现 的 索引 值 ， 当 子 字符 串 不 
存在 时 , 返回 -1。 该 函数 区 分 大 小 写 , 它 可 用 于 在 字符 串 中 查找 感 兴趣 的 片段 ( 如 果 存 在 的 话 )。 


"www.networksciencelab.com".find(".com") 




















> 21 
函数 count (needle) 返 回 对 象 字 符 串 中 子 字 符 串 needle 非 重症 出 现 的 次 数 ， 该 隐 数 也 区 分 
大 小 写 。 
"www.networksciencelab.com".count(".") 
> 2 


字符 串 是 任何 数据 处 理 程序 的 重要 组 件 , 但 它 既 不 是 唯一 的 组 件 ， 也 不 是 最 高 效 的 组 件 。 还 
可 以 使 用 列表 、 元 组 、 集 合 和 字典 来 捆绑 字符 串 和 数值 数据 ， 以 实现 高 效 的 搜索 和 排序 。 











第 5 单元 
选择 合适 的 数据 结构 








列表 、 元 组 、 集 合 和 字典 是 Python 中 最 常用 的 复合 数据 结构 , 它们 都 属于 容 需 类 的 数据 结构 。 


Python 用 数组 的 方式 实现 列表 。 列 表 的 搜索 时 间 是 线性 的 ， 因 此 用 列表 来 存储 大 量 可 搜索 的 
数据 是 不 切实 际 的 。 


元 组 是 不 可 变 的 列表 ， 创 建 后 就 无 法 再 更 改 。 元 组 的 搜索 时 间 也 是 线性 的 。 
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与 列表 和 元 组 不 同 ， 集 合 不 是 序列 : 集合 项 不 存在 索引 。 集 合 最 多 只 能 存储 一 个 项 的 副本 ， 
具有 次 线性 O(log(N)) 的 搜索 时 间 。 集合 非常 适合 于 成 员 查 找 和 消除 重复 项 ( 如 果 将 包含 重复 项 的 
列表 转换 为 集合 ， 则 重复 项 将 会 消失 ): 


myList = list(set(myList)) ## 删除 myList 中 的 重复 项 


可 以 将 列表 数据 转换 为 查询 成 员 速度 更 快 的 集合 数据 。 在 下 面 的 例子 中 ，bigList 是 以 十 进 
制 字 符 串 表示 的 前 1000 万 个 整数 的 列表 : 

bigList = [str(i) for i in range(10000000)] 

"abc" in bigList # 耗 时 0.2 秒 

bigSet = set(bigList) 

"abc" in bigSet # 耗 时 15~30 微 秒 


























快 了 10 000 倍 ! 

字典 构建 了 从 键 到 值 的 映射 。 任 何 可 哈 希 的 数据 类 型 ( 数字、 布尔、 字符 串 、 元 组 ) 的 对 象 
都 可 以 作为 键 ， 且 同一 字典 中 的 不 同 键 可 以 属于 不 同 的 数据 类 型 。Python 对 字典 值 的 数据 类 型 也 
没有 限制 。 字 典 具 有 次 线性 Odog(V)) 搜 索 时 间 ， 它 非常 适合 用 于 键 值 的 查找 。 

你 可 以 通过 ( 键 , 值 ) 这 样 的 元 组 列表 创建 字典 ， 也 可 以 使 用 内 置 类 构造 函数 enumerate(seq) 
创建 字典 ， 这 样 得 到 的 字典 ， 其 键 为 各 项 在 seq 中 的 序列 号 : 


seq = ["alpha", "bravo", "charlie", "delta"] 
dict(enumerate(seq)) 















































今 {0: 'alpha', 1: 'bravo', 2: 'charlie', 3: 'delta'} 


男 一 种 从 键 序列 ( kseq ) 和 值 序列 ( vsec ) 创建 字典 变量 的 巧妙 方法 ， 是 使 用 内 置 类 构造 
函数 zip(ksedq，vseq) ( 两 个 序列 必须 具有 相同 的 长 度 ): 











kseq = "abca'" # 字符 囊 也 是 一 个 序列 
vseq = ["alpha", "bravo", "charlie", "delta"] 


dict(zip(kseq, vseq)) 
今 {'a': 'alpha', 'c': 'charlie', 'b': 'bravo', 'd': 'delta'} 


Python 将 enumerate (seq) 和 zip(kseq，vseq) (以 及 经 典 的 range() 函数 ) 实现 为 列表 生 
成 器 。 列 表 生 成 器 提供 了 一 个 迭代 器 接口 ， 这 使 得 我 们 可 以 在 for 循 环 中 使 用 它们 。 与 真正 的 列 
表 不 同 的 是 , 列表 生成 器 只 在 需要 时 才 生 成 下 一 个 元 素 , 这 可 以 说 是 一 种 巧妙 的 偷懒 方式 。 列 表 
生成 器 便于 处 理 大 型 列表 ， 甚 至 允许 “无 限 ” 的 列表 。 你 可 以 通过 调用 List() 函数 ,将 列表 生 
成 器 显 式 强制 转换 为 列表 。 



































第 6 单元 
通过 列表 推导 式 理解 列表 

















列表 推导 式 是 一 个 将 数据 集 (不 一 定 是 列表 ) 转换 为 列表 的 表达 式 。 通 过 列表 推导 式 ， 可 以 
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实现 对 所 有 或 某 些 列表 元 素 应 用 相同 的 操作 , 例如 将 所 有 元 素 转换 为 大 写 或 每 个 元 素 的 寡 级 数 运 
算 结果 。 


转换 过 程 如 下 。 


(1) 表达 式 遍 历数 据 集 并 访问 集合 中 的 每 一 项 。 

(2) 为 每 一 项 计算 可 选 的 布尔 表达 式 〈 默认 值 为 True )。 

(3) 如 果 布 尔 表 达 式 为 True， 则 计算 当前 项 目的 循环 表达 式 ， 并 将 其 值 附 加 到 结果 列表 中 。 
(4) 如 果 布 尔 表达 式 为 Fatse， 则 忽略 该 项 。 


这 里 给 出 一 些 比 较 简单 的 列表 推导 式 : 


## 复制 myList; 等 同 于 myList,Copy() 或 者 myList[:]， 但 二 者 的 效率 都 没有 列表 推导 式 高 
[x for x in myList] 

# 提取 非 负 项 

[x for x in myList if x >= 0] 

# 用 MyList 各 项 的 平方 构建 一 个 新 列表 

[x**2 for x in myList] 

# 用 MyList 非 零 项 的 倒数 构建 一 个 新 列表 

[1/x for x in myList if x != 0] 

# 从 打开 的 jnfile 文 件 中 选 出 所 有 的 非 空 行 ， 

# 并 删除 这 些 行 开头 和 结尾 的 空格 

[L.strip() for L in infite if L.strip()] 


在 最 后 一 个 例子 中 ， 对 于 每 个 列表 项 ， 函 数 strip () 被 执行 了 两 次 。 如 果 不 想 使 用 这 种 重复 
的 表达 方式 ,那么 可 以 使 用 下 面 这 样 的 嵌 套 列表 推导 式 。 其 中 ,内 部 的 列表 推导 式 删除 空白 ， 外 
部 的 列表 推导 式 消除 空 字符 串 : 

[Line for Line in [L.strip() for L in infile] if line] 

如 果 列 表 推导 式 被 包含 在 圆 括号 中 , 而 不 是 在 方 括号 中 , 则 程序 将 返回 一 个 列表 生成 器 对 象 : 

(x**2 for x in myList) # 结果 为 : <generator object <genexpr> at 0x...> 

列表 推导 式 的 结果 通常 是 重复 项 目的 列表 : 数字 、 单 词 、 词 干 和 标题 。 如 果 想 知道 哪个 项 目 
是 最 常见 或 最 少见 的 ， 可 以 借助 于 Counter 类 (参考 第 7 单元 )， 它 是 一 个 用 于 收集 这 类 统计 数据 
的 免费 工具 。 



















































































第 7 单元 
使 用 计数 器 























计数 器 是 一 种 字典 式 集合 ， 用 于 给 〈 另 一 个 ) 集合 项 目 计 数 。 计 数 器 定义 在 coLLections 
模块 中 。 你 可 以 将 要 计数 的 集合 传递 给 构造 函数 Counter， 然 后 使 用 函数 most_common(n) 来 获 
取 n 个 出 现 频率 最 高 的 项 及 对 应 频率 的 列表 ( 如 果 没 有 提供 参数 n, 则 函数 返回 的 将 是 一 个 针对 所 
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有 项 目的 列表 )。 
from collections import Counter 
phrase = "a man a plan a canal panama" 


cntr = Counter(phrase.split()) 
cntr.most common() 


今 [('a', 3), ('canal', 1), ('panama', 1), ('plan', 1), ('man', 1)] 


为 了 便于 查询 ， 可 将 列表 转换 为 字典 ; 


cntrDict = dict(cntr.most common()) 








今 {'a': 3, 'canal': 1, 'panama': 1, 'plan': 1, "man': 1} 
cntrDict['a'] 
和 》 3 


你 将 在 第 35 单 元 的 第 3 小 入 (“唯一 性 、 计 数 、 会 员 资 格 ”) 中 了 解 到 基于 pandas 模 块 的、 更 
为 通用 的 计数 工具 。 




















加 第 8 单元 
“使 用 文件 




















文件 是 用 于 长 期 存储 数据 的 非 易 失 性 容器 。 与 文件 相关 的 常见 操作 包括 打开 文件 ， 从 文件 读 
取 数 据 或 将 数据 写 人 文件 ， 以 及 关闭 文件 。 你 可 以 打开 文件 进行 读 取 (默认 模式 ， 定 义 为 "r" )、 
(覆盖 ) 写 入 ("w" ) 或 人 妃 加 写 人 ("a" )。 以 写 入 方式 打开 文件 ， 会 在 没有 任何 通知 的 情况 下 ， 
破坏 文件 的 原始 内 容 ; 另外 ， 试 图 打开 一 个 不 存在 的 文件 进行 读 取 操作 会 导致 异常 : 
f = open(name, mode="r") 


< read the file > 
f.close() 


Python 给 这 种 编程 范式 提供 了 一 个 有 效 的 替代 品 : with 语 句 。with 语 句 允 许 显 式 地 打开 一 个 
文件 , 同时 保证 在 退出 Python 后 能 自动 关闭 文件 , 从 而 避免 了 跟踪 那些 已 打开 却 不 再 需要 的 文件 。 


with open(name, mode="r") as f: 
« read the file » 


一 些 模块 ， 例 如 picktle 模 块 (第 12 单 元 讨论 了 该 模块 的 使 用 )， 要 求 以 二 进 制 模式 ("rb"、 
"wb" 或 "ab" ) 打开 文件 。 在 读 取 或 写 人 原始 二 进 制 数组 时 ， 同 样 需要 使 用 二 进 制 模式 。 以 下 函 
数 能 从 已 打开 的 文件 f 中 读 取 文本 数据 : 


f.read() # 以 字符 串 或 二 进 制 的 方式 读 入 所 有 数据 
f.read(n) # 以 字符 串 或 二 进 制 的 方式 读 入 前 n 字 节 的 数据 
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f.readLine() # 以 字符 串 的 方式 读 入 下 一 行 
f.readLines() # 以 字符 串 的 方式 读 入 所 有 行 


根据 实际 需要 ， 可 以 混合 和 搭配 使 用 这 些 函 数 。 例 如 ， 可 以 读 取 第 一 个 字符 串 ， 接 着 读 取 下 
5 个 字 节 , 然后 再 读 下 一 行 , 最 后 读 取 文 件 的 剩余 部 分 。 这 些 函 数 的 返回 结果 都 不 会 删除 换行 符 。 
通常 ， 在 不 确定 文件 是 否 较 小 的 情况 下 ， 使 用 函数 read() 和 readLines ( ) 是 不 安全 的 。 

以 下 函数 将 文本 数据 写 人 已 打开 的 文件 f: 


f.write(Line) # 写字 符 串 数据 或 二 进 制 数据 
f.writeLines(ines) # 写字 符 串 数据 列表 


这 些 函数 不 会 在 写 和 的 字符 串 末 尾 添加 换行 符 。 如 果 需 要 ， 你 得 自己 添加 。 





























第 9 单元 
上 网 





根据 WorldWideWebSize 网 站 "的 统计 结果 ， 能 被 索引 的 Web 至 少 包含 48.5 亿 网 页 ” 。 其 中 部 分 
网 页 可 能 是 我 们 感 兴趣 的 。urllib. request 模 块 包含 从 Web 下 载 数 据 的 函数 。 可 以 手动 下 载 单 
个 数据 集 , 将 其 保存 到 缓存 目录 中 , 再 使 用 Python 脚本 进行 分 析 , 不 过 这 种 方法 并 不 可 取 。 另 外 ， 
某 些 数据 分 析 项 目 需 要 自动 化 迭代 或 递归 下 载 。 

无 论 要 从 Web 上 获取 什么 ,第 一 步 都 是 用 urtlopen (ur1l) 函数 打开 网 址 ， 以 获得 打开 网 址 的 
句柄 。 一 旦 打开 了 网 址 ， 对 应 的 网 址 句柄 就 类 似 于 以 只 读 方 式 打 开 的 文件 句柄 : 可 以 使 用 函数 
read()、readline() 和 readlines() 来 访问 数据 。 


鉴于 Web 和 互联 网 的 动态 特性 , 无 法 打开 网 址 的 概率 要 高 于 无 法 打开 本 地 文件 的 概率 。 因此 ， 
务必 将 任何 与 Web 相 关 的 函数 调用 都 包含 在 一 个 异常 处 理 的 语句 中 : 


import urllib.request 
try: 
with urllib.request.urlopen("http://www.networksciencelab.com") as doc: 
html = doc.read () 
人 林 如 果 数 据 读 取 成 功 ， 连 接 就 会 自动 关闭 
except : 
print("Could not open %s" % doc, file=sys.err) 
# 不 要 假装 已 经 读 到 了 文件 ! 
# 一 定 要 在 这 里 执行 错误 处 理 程序 


当 数 据 集 部 署 在 需要 身份 验证 的 网 站 上 时 ， 就 不 能 使 用 urtopen ( ) 函数 了 。 此 时 ,应 使 用 提 
供 安全 套 接 层 (SSL， 例 如 OpenSSL ) 的 模块 。 


























QD www.worldwidewebsize.com 


@) 网 页 数量 的 统计 结果 是 动态 变化 的 ， 在 翻译 此 处 时 所 查 到 的 最 新 数据 是 47.2 亿 。 一 一 译 者 注 
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urtLtLib.parse 模 块 提供 了 用 于 解析 和 构建 网 址 的 友好 工具 。 国 数 urLparse() 将 网 址 分 成 六 
个 元 素 的 元 组 : 协议 〈 比 如 http )、 网 络 地 址 、 文 件 系统 路 径 、 参 数 、 查 询 和 片段 : 
import urllib.parse 


URL = "http://networksciencelab.com/index.html;param?foo=bar#content" 
urllib.parse.urlparse(URL) 


今 ParseResuLt(scheme= 'http'，netLoc='networkscienceLab .com'， 
path='/index.html', params='param', query="'foo=bar’', 
» fragment='content 


函数 urtunparse(parts) 使 用 urLparse() 的 返回 值 parts 构 造 有 效 的 网 址 。 如 果 在 解析 一 
个 网 址 之 后 再 将 其 重新 构建 ， 则 结果 可 能 与 原始 网 址 稍 有 不 同 ， 但 功能 上 是 完全 等 效 的 。 


— 











第 10 单元 
使 用 正则 表达 式 实现 模式 匹配 





正则 表达 式 是 一 种 基于 模式 匹配 的 搜索 、 拆 分 及 替换 字符 串 的 强大 机 制 。re 模 块 提 供 模式 描 
述 语言 和 用 于 匹配 、 搜 索 、 拆 分 和 替换 字符 串 的 函数 。 

从 Python 的 角度 来 看 ,正则 表达 式 只 是 一 个 包含 模式 描述 的 字符 串 。 将 一 个 需要 多 次 使 用 的 
正则 表达 式 编 译 为 Pattern 对 象 后 ， 可 以 使 模式 匹配 更 加 高 效 : 

compiledPattern = re.compile(pattern, flags=0) 
编译 在 不 影响 正确 性 的 前 提 下 ,大 大 提高 了 模式 匹配 效率 。 可 以 根据 需要 , 在 编译 时 或 之 后 
执行 时 ， 设 定 模式 匹配 标志 。 最 常见 的 标志 是 re.I (忽略 字符 大 小 写 ) 和 re.M (告诉 re 在 多 行 
模式 下 工作 ， 并 让 运算 符 ^ 和 $ 也 匹配 行 的 开始 或 结束 )。 如 果 要 组 合 使 用 多 个 匹配 标志 ， 只 需 直 
接 添加 即 可 。 


理解 正则 表达 式 语 言 
部 分 正则 表达 式 语言 汇总 在 下 表 中 。 
































表 2 ”正则 表达 式 语 言 





基本 操作 ” 
除 换行 符 之 外 的 任意 字符 
a 字母 a 























Qa 在 Python 3.x 中 ， 字 符 串 默认 都 是 采用 Unicode 编 码 ， 这 对 Ww、\W、\b、\B、\d、\D、\s 和 \S 会 有 些 影响 。 详 情 请 
参考 Python 官方 手册 ( https://docs.python.org/3.3/library/re.html?Highlight= re 上 re.ASCII ) 。 一 一 译 者 注 
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( 续 ) 
基本 操作 
ab 字符 串 ab 
xly x 或 y 
特殊 字符 y ( 例如 和 +{}$() [1-?.* ) 的 转 义 符 
字符 类 
[a-d] a、b、c、d 中 的 某 个 字符 
[^a-d] 除了 a、b、c、d 外 的 一 个 字符 
\d 一 个 数字 字符 
D 一 个 非 数 字 字 符 
\s 一 个 空白 字符 
\S 一 个 非 空白 字符 
\w 一 个 字母 数字 字符 ” 
\W 一 个 非 字 母 数 字 字 符 
数量 相关 
XX* 0 个 或 多 个 x 
X+ 1 个 或 多 个 x 
XxX? 0 个 或 1 个 x 
x{2} 2 个 且 仅 2 个 x 
x{2,5} 2 至 5 个 x 
转 义 字符 
\n 换行 符 
Yr 可 车 符 
\t Tab 
定 界 符 
a 字符 串 起 始 处 
\b 单词 边界 
\B 非 单词 边界 
$ 字符 串 结尾 
组 
(Cg) 捕获 组 
(2:x) 非 捕 获 组 











位 于 字符 类 表达 式 中 间或 结尾 处 的 插入 符 (^ ) 和 连接 符 ( - ) 不 具有 特殊 含义 ,表示 字符 '^! 
和 '-'。 组 可 以 改变 操作 的 顺序 。 当 成 功 匹配 时 ， 匹 配 捕获 组 的 子 字符 串 也 包括 在 结果 列表 中 。 





Q@ 对 于 Python 3.x 默 认 的 Unicode 编 码 ，\w 指 的 是 一 个 Unicode 字 符 ; 而 对 于 ASCII 编 码 ，\w 指 任意 一 个 字母 或 数字 或 
下 划 线 ， 即 [a-zA-Z0-9 ]。 可 以 使 用 标志 rA 、rASCII ,或 者 在 表达 式 之 前 添加 G3a) 来 指定 ASCII 模 式 
( https://docs.python.org/3.3/library/re.html? highlight=re ) 。 一 一 译 者 注 
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注意 ,正则 表达 式 要 用 到 大 量 反 斜 杜 ('\' )， 而 反 斜 杠 又 是 Python 中 的 转 义 字符 。 因 此 ,如 
采 要 将 反 斜 杠 作为 常规 字符 处 理 ， 必 须 再 加 一 个 反 斜 杜 ("\\' )， 这 将 导致 正则 表达 式 中 出 现 大 
量 的 反 斜 本 ， 显 得 非常 繁重。 幸好 Python 文 持原 生字 符 串 ,在 原生 字符 串 中 反 斜 杠 不 被 解析 为 转 
义 字 符 。 

要 定义 原生 字符 串 ， 只 需要 加 一 个 r 前 级 。 以 下 两 个 字符 串 是 等 价 的 ， 且 两 种 表达 式 中 都 没 
有 换行 符 : 


"n\n" 
raNmn 


本 书 将 使 用 原生 字符 串 的 方式 来 书写 正则 表达 式 。 


接 下 来 我 们 学 习 一 些 有 用 的 正则 表达 式 。 使 用 这 些 例 子 无 意 吓 距 你 ， 但 通过 它们 你 应 该 认识 
到 , 相 比 于 生活 的 不 易 , 计算 机 科学 无 疑 是 一 门 更 加 困难 的 学 科 , 而 其 中 最 难 的 部 分 就 是 模式 匹配 。 


口 关 1w1 -WwW IIYGUWE- WwW lw)*)+" 
这 是 一 个 电子 邮件 地 址 。 
Or"<TAGIb[^>]*<(.*?)</TAG>" 
这 是 一 个 具有 结束 标签 的 HTML 标 签 。 
Dr"[-+]?((\d*\.?\gd+)|(\d\.)) ([eE][-+]?\d+)?" 
这 是 一 个 浮 点 数 。 
至 此 , 你 也 许 会 一 时 冲动 , 打算 写 出 一 个 正则 表达 式 来 匹配 有 效 的 网 址 ， 这 个 任务 听 上 去 确 


实 很 吸引 人 ， 但 却 是 极其 困难 的 。 建 议 你 抑制 住 冲动 ， 直 接 使 用 urLLib .parse 模 块 ， 相 关 的 内 
容 已 在 第 9 单元 中 介绍 过 了 。 







































































不 规则 正则 表达 式 
Python 正则 表达 式 不 是 唯一 可 用 的 正则 表达 式 。Perl 语 言 使 用 的 正则 表达 式 也 具有 
同样 的 处 理 能 力 ， 但 是 语法 和 Python 不 同 ， 语 义 上 也 略 有 差异 。 在 一 些 简 单 情况 下 
(例如 文件 名 匹配 )， 可 以 使 用 glob 模 块 ， 它 是 另 一 种 类 型 的 正则 表达 式 ( 参见 第 
11 单 元 )。 








使 用 模块 re 进行 搜索 、 拆 分 和 蔡 换 


一 旦 你 编写 并 编译 了 一 个 正则 表达 式 ， 就 可 以 用 它 来 拆 分 、 匹 配 、 搜 索 和 替换 子 字符 串 。re 
模块 提供 了 所 有 必要 的 函数 ， 有 是 大 多 数 函 数 接受 两 种 类 型 的 模式 : 原生 的 和 编译 后 的 。 



































re.function(rawPattern, ...) 
compiledPattern.function(...) 
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函数 spLit(pattern，string，maxspLit=0，fLags=0) 通 过 pattern 将 字符 串 拆 分 为 至 多 
maxsplit 个 子 字符 串 ， 并 返回 子 字 符 串 列表 ( 如 果 maxspLit==0， 则 返回 所 有 子 字符 串 )。 如 果 
你 在 寻找 针对 文本 分 析 的 分 词 器 ， 那 么 这 个 冰 数 可 以 作为 一 个 免费 的 选择 。 


re.split(r"\W", "Hello, world!") 

















> ['Hello', '', 'world', ''] 


# 合并 所 有 相 邻 的 非 字 母 字 符 
re.split(r"\W+", "Hello, world!") 


今 ['Hello', 'world', ''] 


因数 match(pattern，string，fLags=0) 检 查 字 符 串 的 开头 是 否 与 正则 表达 式 pattern 相 
匹配 。 如 果 匹 配 成 功 ， 则 该 函数 返回 一 个 match 对 象 ， 和 否则 返回 None。 匹 配对 象 (如 果 存 在 ) 可 
以 使 用 start() .end() 和 group() 函 数 , 分别 返回 匹配 片段 的 开始 索引 、 结束 索引 以 及 片段 本 身 。 


mo = re.match(r"\d+", "067 Starts with a number") 











> <_sre.SRE Match object; span=(0, 3), match='067'> 
mo.group() 
“067 
re.match(r"\d+", "Does not start with a number") 
> None 


函数 search(pattern，string，fLags=0) 检 查 整 个 字符 串 是 否 存在 匹配 正则 表达 式 的 部 
分 。 如 果 匹 配 成 功 ， 则 该 函数 返回 一 个 match 对 象 ， 否 则 返回 None。 如 果 想 要 匹配 的 片段 不 在 字 
符 串 的 开头 ， 就 应 使 用 search () 函数 蔡 换 上 述 的 match( ) 函数 。 


re.search(r"[a-z]+", "0010010 Has at least one 010 letter 0010010", re.I) 


























今 <_sre.SRE Match object; span=(8, 11), match='Has'> 


## 区 分 大 小 写 的 方式 
re.search(r"[a-z]J+", "0010010 Has at least one 010 letter 0010010") 


今 <_sre.SRE Match object; span=(9, 11), match='as'> 


函数 findaLL(pattern，string，fLags=0) 查 找 与 正则 表达 式 匹 配 的 所 有 子 字 符 串 。 该 函 
数 返 回 一 个 子 字 符 串 列表 ( 当然 ， 该 列表 可 能 为 空 )。 


re.findaLL(r"1a-zJ+"，"0010010 Has at least one 010 letter 0010010", re.I) 


今 ['Has', 'at', 'least', 'one', 'letter'] 
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捕获 组 与 非 捕获 组 


非 捕获 组 作为 正则 表达 式 的 一 部 分 ， 在 re 模块 中 被 视 为 一 种 简单 的 记号 "。 非 捕获 组 使 
用 的 括号 与 算术 表达 式 中 的 括号 在 作用 上 并 无 差异 例如，r"cab+" 匹 配 以 "ca" 开 头 、 后 跟 
至 少 一 个 "b" 的 子 字符 事 , 而 r"c(?3:ab)" 匹 配 以 "c" 开 头 、 后 跟 一 个 或 多 个 "ab" 的 子 字符 囊 。 
注意 ， 正 则 表达 式 中 "(?:" 和 其 他 部 分 之 间 没有 空格 。 

与 非 捕 获 组 不 同 ,捕获 组 除了 具有 分 组 的 作用 ,还 能 捕获 匹配 的 子 字符 串 。 例 如 ， 捕 获 


组 rc(ab)+"* 在 search() 函数 作用 下 ， 返 回 在 "c" 及 其 后 至 多 个 "ab" 的 子 字 符 串 ， 而 在 
findatLtL() 函数 作用 下 ， 返 回 一 系列 "ab" 子 字符 串 ”。 


函数 sub(pattern，repL，string，fLags=0) 用 repltL 替 换 字 符 串 的 所 有 非 重 到 匹配 部 分 。 
使 用 可 选 参 数 count， 可 以 限制 玲 换 的 次 数 。 











re.sub(r"[a-z J+", "[...]", "0010010 has at Least one 010 letter 0010010") 


今 “0010010[...]010[...]0010010 





正则 表达 式 非常 强大 ， 可 是 在 许多 情况 下 ( 例如， 通过 文件 的 后 级 匹配 文件 名 )， 使 用 正则 
表达 式 有 点 “ 杀 鸡 用 牛刀 ”了 。 实 际 上 ， 可 以 通过 globbing 实 现 类 似 的 效果 ， 具 体内 容 请 参考 下 
一 单元 。 








第 11 单元 
globbing” 文 件 名 与 其 他 字符 串 














globbing 是 匹配 特定 文件 名 和 通配符 的 过 程 ， 是 正则 表达 式 的 简化 版 。 通 配 符 可 以 包含 特殊 
符号 '*' ( 表示 零 个 或 多 个 字符 ) 和 '?'( 表示 正好 一 个 字符 )。 请 注意 ，'\' 、'+' 和 '. ' 不 是 特 
殊 符号 ! 














glob 模 块 提供 了 一 个 名 称 也 为 glob 的 、 匹 配 通配符 的 函数 。 该 函数 返回 与 作为 参数 传递 的 通 
配 符 相 匹 配 的 所 有 文件 名 列表 : 






































中 9 顾名思义， 非 捕获 组 是 一 种 不 具备 “捕获 ”能 力 的 组 。 换 句 话说 ， 除 了 不 能 从 组 中 获得 匹配 的 内 容 之 外 ， 非 捕 
获 组 跟 正常 的 ( 捕获 ) 组 没有 什么 区 别 。 译 者 注 

@ 此 处 进一步 给 出 一 个 例子 : re.Search(r"c(ab)+","cababjcabk" ) 念 "cabab' re.findall(r"c(ab)+","cababjcabk") 
这 ['ab','ab']。 译 者 注 

@) globbing ( 通 配 ) 是 黑客 们 的 行 话 ， 通 常 表示 把 一 个 包含 通配符 的 非 具 体 文件 名 展开 为 〈 存 储 在 计算 机 、 服 务 顺 
或 者 网 络 上 的 ) 具体 文件 名 的 过 程 。 一 一 译 者 注 
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glob.glob("*.txt") 
今 ['public.policy.txt', 'big.data.txt'] 


通配符 '*' 匹配 当前 目录 (文件 夹 ) 中 的 所 有 文件 名 ， 以 句点 ('." ) 开头 的 文件 除外 。 如 
果 要 匹配 这 种 以 句点 符号 开头 的 特殊 文件 名 ， 需 使 用 通配符 " .*"。 








第 12 单元 
Pickling 和 Unpickling 数据 





pickle 模 块 用 于 实现 序列 化 一 一 将 任意 的 Python 数 据 结构 保存 到 一 个 文件 中 ， 并 将 其 作为 
Python 表达 式 读 回 。 可 以 使 用 任何 Python 程序 读 出 文件 中 被 pickle 的 表达 式 , 但 是 用 其 他 语言 编写 
的 程序 做 不 到 这 一 点 ( 除非 该 语言 实现 了 pickle 协 议 )。 

pickle 文 件 必 须 以 二 进 制 读 / 写 模式 打开 : 

# 将 一 个 对 象 转 存 〈dump) 到 文件 


with open("myData.pickle", "wb") as oFile: 
pickle.dump(object, oFile) 








# 重新 加 载 相 同 的 对 象 
with open("myData.pickle", "rb") as iFile: 
object = pickle.load(iFile) 
一 个 pickle 文 件 中 可 以 存储 多 个 对 象 。 Load( ) 函数 能 返回 pickle 文 件 中 的 下 一 个 对 象 , 而 如 果 
已 到 达 文 件 结尾 ， 则 触发 异常 。 也 可 以 使 用 pickte 来 存储 软件 用 不 到 的 中 间 数 据 ， 这 些 软件 通 
常 不 具备 pickle 的 功能 。 























轮 到 你 了 








本 章 讲解 了 如 何 从 本 地 磁盘 文件 和 互联 网 中 提取 数据 , 用 恰当 的 数据 结构 存储 数据 ,提取 与 
特定 模式 匹配 的 位 和 片段 ， 以 及 pickle 数 据 以 便 进一步 处 理 。 在 计算 机 科学 中 ， 虽然 知 识 和 技术 
是 有 限 的 ， 但 需要 提取 数据 的 场景 却 各 式 各 样 、 无 穷 无 尽 。 应 用 数据 提取 可 以 实现 不 同 的 目的 ， 
处 理 各 种 复杂 的 问题 。 此 处 仅 列 出 有 限 的 几 种 应 用 


口 词 频 计数 器 * 


编写 一 个 程序 ， 用 于 下 载 用 户 请 求 的 网 页 ， 并 给 出 网 页 中 使 用 频率 最 高 的 十 个 词 ， 所 有 词 
不 区 分 大 小 写 。 出 于 练习 的 目的 ， 可 以 简单 地 假设 一 个 词 由 正则 表达 式 r"\w+" 确 定 ”。 
































O 





























Q 中文 的 分 词 比 英 文 复杂 得 多 ， 最 好 使 用 英文 网 页 完成 该 练习 。 一 一 译 者 注 
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口 文件 索引 器 ** 


编写 一 个 程序 ， 建 立 某 个 指定 目录 (文件 夹 ) 下 所 有 文件 的 索引 。 程 序 应 构造 一 个 字典 ， 
其 中 键 是 所 有 文件 中 的 所 有 唯一 词 ( 正则 表达 式 r"\w+" 所 描述 的 、 不 区 分 大 小 写 的 词 )， 


并 且 字 典 里 每 个 条 目的 值 是 包含 该 词 的 文件 名 列表 。 例 如 ， 如 果 单 词 aloha 出 现在 文件 
early-internet.dat 和 hawaiian-travel.txt 中 ， 则 字典 将 具有 这 样 的 条 目 : {...,'aloha': 2 


'early-internet.dat','hawaiian-travel .txt'],...}。 


[ 



































另外， 程序 应 对 该 字典 执行 pickle 操 作 ， 以 供 将 来 使 用 。 
口 电话 号 码 提取 器 *** 


编写 一 个 程序 ， 从 给 定 的 文本 文件 中 提取 出 所 有 电话 号 码 。 这 个 任务 并 不 容易 ， 不 同 国 








家 的 电话 号 码 书写 格式 超过 几 十 种 (请 参考 en.wikipedia.org/wiki/National conventions_ 
for_ writing_telephone_numbers )。 你 能 设计 一 个 正则 表达 式 来 捕获 它们 吗 ? 


妇 


果 这 个 任务 对 你 来 说 不 是 很 难 ， 那 你 可 以 试 试 提取 地 址 ! 




















这 个 杰 森 是 谁 ? 为 什么 诸 神 都 喜欢 他 ? 他 从 哪里 来 ? 他 有 什么 样 的 故事 ? 
一 一 希腊 诗人 和 荷 马 


使 用 文本 数据 








原始 数据 通常 来 自 各 种 文本 文档 : 结构 化 文档 (HTML、XML、CSV 和 JSON 文 件 ) 或 非 结 
构 化 文档 ( 简单 的 、 人 类 可 读 的 文本 )。 事实 上 ， 非 结构 化 文本 可 能 是 最 难处 理 的 数据 源 ， 因 为 
处 理 软 件 必须 推断 出 数据 项 的 含义 。 

上 一 段 中 提 到 的 所 有 数据 表示 都 是 人 类 可 读 的 ( 这 正 是 称 它们 为 文本 文档 的 原因 )。 必要 时 ， 
可 以 用 简单 的 文本 编辑 器 ( Windows 上 的 Notepad、Linux 上 的 gedit， 以 及 Mac OS X 上 的 TextEdit ) 
打开 任意 的 文本 文件 ,进行 阅读 或 者 完成 编辑 。 在 没有 其 他 可 用 工具 的 情况 下 ,可 以 不 去 管 具体 
的 数据 表示 方法 ， 而 是 将 文本 文档 视 为 普通 文本 ， 直 接 使 用 核心 Python 的 字符 串 函 数 来 处 理 ( 参 
考 第 4 单元 )。 


值得 庆幸 的 是 ,Anaconda 提 供 了 几 个 优秀 的 模块 一 -BeautifulLSoup .csv、 json 和 ntLtk 一 一 
使 原本 枯燥 的 文本 分 析 工 作 变 得 令 人 兴奋 。 按 照 奥 卡 姆 剃刀 原理 一 一 如 无 必要 ， 勿 增 实体 ( 这 一 
原理 实际 上 是 由 约翰 ' 庞 奇 而 不 是 由 奥 卡 姆 制定 的 ), 我 们 应 该 避免 重新 发 明 已 经 存在 的 工具 。 该 
原理 不 仅 适 用 于 文本 处 理工 具 ， 而 且 适 用 于 所 有 Anaconda 软 件 包 。 


本 章 通过 简单 的 结构 化 数据 开启 文本 数据 处 理 的 学 习 。 然 后 , 你 将 了 解 如 何 通过 自然 语言 处 
理 技术 ， 向 非 结构 化 文本 添加 某 些 结构 。 







































































第 13 单元 
处 理 HTML 文件 





本 章 介绍 的 第 一 种 结构 化 文本 文档 是 HTMI 一 一 一 种 通常 在 Web 上 用 于 表示 人 类 可 读 信息 的 
标记 语言 。HTML 文 档 包 含 文本 以 及 用 于 控制 文本 的 显示 和 释义 的 预定 义 标签 (包含 在 尖 括 号 <> 
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中 )。 标 签 可 以 具有 属性 ， 下 表 显 示 了 一 些 HTML 标 签 及 其 属性 。 


表 3 ”一 些 常用 的 HTML 标 签 和 属性 


















































标 签 属 性 用 途 
HTML 整个 HTML 文 档 
HEAD 文档 头 
TITLE 文档 标题 
BODY background 、bgcolor 文档 主体 内 容 
Hl、H2、H3 等 小 节 头 
I，EM 斜体 强调 样式 
B, STRONG 加 粗 强 调 样式 
PRE 格式 化 文本 
Pp, SPAN, DIV 段落 ， 块 元 素 ， 行 内 元 素 
人 换行 
A href 超 链接 
IMG sre, width, height 图 片 
TABLE width, border 表格 
TR 表格 中 的 一 行 
TH, TD 表 头 /单元 格 
OL，UL 有 序 /无 序列 表 
LI 列表 
DL 描述 列表 
DT, DD 描述 主题 ， 描 述 定义 
INPUT name 用 户 输入 域 
SELECT name 下 拉 荣 单 




















HIML 是 XML 的 前 身 , 人 们 发 明 它 的 初衷 是 使 机 器 处 理 可 读 文 档 , 它 算 不 上 是 一 门 编程 语言 ， 
只 是 一 系列 具有 相似 结 构 的 标记 语言 。 用 户 可 以 根据 需要 定义 XML 标签 及 其 属性 。 























XML * HTML 


虽然 XML 和 HTML 看 上 去 很 相似 , 但 一 个 典型 的 HTML 文 档 通常 不 会 是 一 个 有 效 的 

XML 文档 。 反 过 来 ，XML 文 档 也 不 是 HTML 文档。 

XML 标签 依赖 于 所 使 用 的 应 用 程序 。 只 要 遵循 一 些 简单 的 规则 (人 例如， 包含 在 尖 

括号 中 )， 任 何 字 母 和 数字 组 成 的 字符 串 都 可 以 作为 标签 。XML 标 签 只 起 到 对 文本 

进行 解释 描述 的 作用 , 而 不 控制 文本 的 显示 , 因此 常 在 不 需要 人 类 直接 阅读 的 文档 

中 使 用 。 使 用 可 扩展 样式 表 语 言 转 换 (XSLT ),， 能 将 XML 和 转换 为 HTML, 而 使 用 级 
联 样式 表 (CSS )， 可 以 给 HTML 文 档 添加 样式 。 
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BeautifuLSoup 模 块 可 用 于 解析 、 访 问 以 及 修改 HTML 和 XML 文档 。 可 以 使 用 一 个 标记 字符 
串 、 一 个 标记 文件 或 一 个 标记 文档 的 网 址 ， 来 构建 一 个 BeautifuLSoup 对 象 : 


from bs4 import BeautifulSoup 
from urllib,.request import urlopen 





# 使 用 字符 囊 构建 SOUup 
soupl = BeautifulSoup("<HTML><HEAD> «headers» </HEAD> «body» </HTML>") 


## 使 用 本 地 文件 构建 SOup 
soup2 = BeautifulSoup(open("myDoc.html")) 


## 使 用 Web 文 档 构 建 soUup 
## 记 住 Urlopen() 不 会 添加 "http://"1 
soup3 = BeautifulSoup(urlopen("http://www.networksciencelab.com/")) 


BeautifuLSoup 对 象 构造 函数 的 第 二 个 可 选 参数 是 标记 解析 器 一 一 负责 提取 HTML 标 签 和 
实体 的 Python 组 件 。BeautifuLSsoup 附 带 四 个 预先 安装 好 的 解析 器 : 


口 "html .parser" (默认 的 解析 器 ， 解 析 速 度 非常 快 , 但 是 规则 较为 严格 ， 多 用 于 “简单 
的 ”HTMIL 文 档 ) 
口 "LxmL" (解析 速度 非常 快 ， 规则 较 宽松 ) 
口 "xmtL"(〈 仅 适用 于 XML 文件 ) 
口 "htmL5Lib" (解析 速度 非常 慢 ， 规则 也 非常 宽松 , 用 于 人 处理 具有 复杂 结构 的 HTML 文 档 ， 
而 如 果 不 考虑 解析 速度 ， 可 用 于 所 有 HTMIL 文 档 ) 

soup 准 备 就 绪 后 ， 可 以 使 用 函数 soup .prettify() 完 美 地 打印 出 原始 标记 文档 。 

函数 soup .get_text() 返 回 标记 文档 中 去 除了 所 有 标签 的 文本 部 分 。 当 我 们 感 兴趣 的 内 容 是 
纯 文本 时 ， 就 可 以 使 用 这 个 函数 实现 标记 文本 向 纯 文 本 的 转换 。 


htmlString = ""' 
<HTIML> 
<HEAD><TITLE>My document</TITLE></HEAD> 
<BODY>Main text.</BODY></HTML> 




































































soup = BeautifulSoup(htmlString) 
soup.get text() 


> "nMy document\nMain text.n' 
标签 通常 用 于 定位 某 些 文件 片段 。 例如 , 我 们 所 感 兴 趣 的 部 分 可 能 是 第 一 个 表 的 第 一 行 这 样 
具体 的 片段 。 使 用 标签 可 以 实现 诸如 此 类 的 定位 功能 ， 尤 其 是 当 标 签 具 有 class 或 1d 属性 时 ， 而 
使 用 纯 文本 是 不 可 能 实现 这 个 功能 的 。 
BeautifuLSoup 对 标签 之 间 的 垂直 和 水 平 关系 使 用 统一 的 实现 方法 。 类 似 于 文件 系统 的 层次 
结构 ， 这 种 位 置 关系 被 表示 为 标签 对 象 的 属性 。 例 如 ，soup 的 标题 soup. title 就 是 soup 的 对 象 


属性 。 标 题 父 元 素 的 name 对 象 的 值 是 soup .title.parent.name.string, 而 第 一 个 表 第 一 行 中 
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的 第 一 个 单元 格 大 概 能 表示 为 soup .body .table.tr.td。 

任何 标签 {t 都 有 一 个 名 称 t.name 、 一 个 字符 串 值 (t.string 表 示 原 始 内 容 ，t.stripped 
strings 表 示 删 除 空白 后 的 列表 )、 父 标签 t.parent 、 下 一 个 标签 t.next 和 前 一 个 标签 t.prev， 
以 及 零 个 或 多 个 子 标签 t. chiLdren (标签 中 的 标签 )。 

BeautifuLSoup 通 过 Python 字典 接口 实现 对 HTML 标 签 属性 的 访问 。 如 果 标 签 对 象 t 表 示 超 链 
接 (例如 <a href="foobar.htmL"> )， 则 超 链 接 目 标的 字符 串 值 为 t["href"].string。HTML 
标签 是 不 区 分 大 小 写 的 ， 这 一 点 应 引起 注意 。 

soup 最 有 用 的 函数 应 该 就 是 soup.find() 和 soup.find all() 了 ,二 者 分 别 用 于 找到 某 个 标 
签 的 第 一 个 实例 和 所 有 实例 。 下 面 的 例子 说 明了 如 何 使 用 soup 查 询 所 需 的 内 容 。 
口 标签 <H2> 的 所 有 实例 : 


level2headers = Soup.find all("H2") 


口 所 有 粗 体 或 斜体 格式 : 

formats = soup.find all(["i", "b", "em", "strong"]) 
口 具有 某 个 属性 (例如 id="Link3" ) 的 所 有 标签 : 
soup.find(id="1link3") 


口 使 用 字典 符号 或 tag .get () 函数 ， 找 出 所 有 超 链接 以 及 第 一 个 链接 的 目标 网 址 : 


Links = soup.find all("a") 

firstLink = links[0]["href"] 

# Or: 

firstLink = links[0] .get("href") 

顺便 提 一 下 ， 如 果 标 签 不 具备 所 查询 的 属性 ， 则 上 面 示例 中 的 两 种 表达 式 都 无 法 使 用 。 鉴 于 
可 能 遇 到 这 样 的 情况 ， 必 须 先 使 用 tag .has_attr() 也 数 检查 属性 是 否 存在 ， 然 后 才能 提取 它 。 

以 下 示例 结合 了 BeautifulSoup 和 列表 推导 功能 , 来 提取 所 有 链接 及 其 各 自 的 网 址 和 标签 ( 这 在 
用 递归 的 方式 抓 取 网 页 时 非常 有 用 ): 


with urlopen("http://www.networksciencelab.com/") as doc: 
soup = BeautifulSoup(doc) 
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links = [(link.string, link["href"]) 
for link in soup.find all("a") 
if link.has attr("href")] 


链接 的 值 是 一 个 由 元 组 对 象 构成 的 列表 : 


今 [('Network Science Workshop', 

SS '<http://www.slideshare.net/DmitryZinoviev/workshop-20212296'), 
今 «...»,('Academia.edu', 

今 '<https://suffolk.academia.edu/DmitryZinoviev'),('ResearchGate', 
今 '<https://www.researchgate.net/profile/Dmitry_Zinoviev')] 
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HIMLXML 之 所 以 强大 ， 是 因为 它 多 样 化 的 功能 ， 但 这 种 多 功能 性 也 未 尝 不 是 它 的 魔 咒 ， 
尤其 是 涉及 表格 数据 时 。 幸 运 的 是 ， 你 可 以 在 较为 严谨 但 易于 处 理 的 CSV 文 件 中 存储 表格 数据 ， 
更 多 的 内 容 请 阅读 下 一 个 单元 。 


第 14 单元 
处 理 CSV 文件 


CSV 是 一 种 结构 化 文本 文件 格式 ， 用 于 存储 和 转移 表格 (或 形式 接近 表格 的 ) 数据 。 该 格 
式 可 以 追溯 到 1972 年 ， 那 时 它 是 Microsoft Excel、Apache OpenOffice Calc 和 其 他 电子 表格 软件 
的 首选 格式 。Data.gov "是 一 个 提供 公开 数据 的 美国 政府 网 站 , 该 网 站 中 CSV 格 式 的 数据 集 就 有 
12 550 个 ”。 

一 个 CSV 文 件 由 表示 变量 的 列 和 表示 记录 的 行 组 成 (具有 统计 背景 的 数据 科学 家 通常 称 这 些 
记录 为 观测 值 )。 记录 中 的 字段 通常 由 逗号 分 隔 , 但 其 他 分 隔 符 也 是 比较 常见 的 , 例如 制 表 符 ( 制 
表 符 分 隔 值 ，TSV )、 冒 号 、 分 号 和 竖 直 条 等 。 建 议 在 自己 创建 的 文件 中 坚持 使 用 逗号 作为 分 隔 
符 ， 同 时 保证 编写 的 处 理 程序 能 正确 处 理 使 用 其 他 分 隔 符 的 CSV 文 件 。 

值得 注意 的 是 ， 有 时 看 起 来 像 分 隔 符 的 字符 并 不 是 分 隔 符 。 通 过 将 字段 包含 在 引号 字符 中 ， 
可 确保 字段 中 的 类 分 隔 符 字 符 作 为 变量 值 的 一 部 分 (如..., "Hello,，world",... )。 

为 了 使 用 方便 ，Python 的 csv 模 块 提供 了 一 个 CSV 读 取 器 和 一 个 CSV 写 人 器 。 两 个 对 象 的 第 
一 个 参数 都 是 已 打开 的 文本 文件 句柄 (在 下 面 的 示例 中 ， 使 用 newLine='…' 选 项 打开 文件 ， 从 而 
避免 删除 行 的 操作 )。 必 要 时 可 以 通过 可 选 参数 deLimiter 和 quotechar， 提 供 默认 的 分 隔 符 和 
引号 字符 。Python 还 提供 了 控制 转 义 字符 、 行 终止 符 等 定 界 符 的 可 选 参数 。 


with open("somefile.csv", newline='') as infile: 
reader = csv.reader(infile, delimiter=',', quotechar='"') 


CSV 文 件 的 第 一 条 记录 通常 包含 列 标题 ,可 能 与 文件 的 其 余部 分 有 所 不 同 。 这 只 是 一 个 常见 
的 做 法 ， 并 非 CSV 格 式 本 身 的 特性 。 

CSV 读 取 器 提供 了 一 个 可 以 在 for 循 环 中 使 用 的 迭代 器 接口 。 迭 代 器 将 下 一 条 记录 作为 一 个 
字符 串 字段 列表 返回 。 读 取 需 不 会 将 字段 转换 为 任何 数值 数据 类 型 ( 必要 时 需要 自己 处 理 ! )， 另 
外 ， 除 非 传递 可 选 参数 skipinitialspace=True， 否 则 不 会 删除 前 导 的 空白 。 

如 果 事 先 不 知道 CSV 文 件 的 大 小 ,而 且 文 件 可 能 很 大 ， 则 不 宜 一 次 性 读 取 所 有 记录 ， 而 应 使 
用 增 量 的 、 迭 代 的 、 逐 行 的 处 理 方式 : 读 出 一 行 ， 处 理 一 行 ， 再 获取 另 一 行 。 
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QD catalog.data.gov/dataset?res_format=CSV 
@) 翻译 此 书 时 该 值 为 14 234。 译 者 注 
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CSV 写 入 絮 提 供 writerow() 和 writerows() 两 个 函数 。writerow() 将 一 个 字符 串 或 数字 序 
列 作 为 一 条 记录 写 人 文件 , 该 函数 将 数字 转换 成 字符 串 , 因此 不 必 担 心 数 值 表示 的 问题 。 类 似 地 ， 
writerows () 将 字符 串 或 数字 序列 的 列表 作为 记录 集 写 人 文件 。 

在 下 面 的 示例 中 ， 使 用 csv 模 块 从 CSV 文 件 中 提取 AnswerAge 列 。 假 设 此 列 肯 定 存在 ， 但 列 
的 索引 未 知 。 一 旦 获得 数值 ， 借 助 statistics 模 块 就 能 得 到 年 龄 的 平均 值 和 标准 偏差 。 

首先 ， 打 开 文 件 并 读 取 数据 : 











with open("demographics.csv", newline='') as infile: 
data = list(csv.reader(infile)) | 
检查 文件 中 的 第 一 个 记录 data[0] ， 它 必须 包含 感 兴趣 的 列 标题 : 


ageIndex = data[0].index("Answer.Age") 
最 后 ， 访 问 剩 余 记 录 中 感 兴趣 的 字段 ， 并 计算 和 显示 统计 数据 : 


ages = [int(row[ageIndex]) for row in data[1:]] 
print(statistics.mean(ages), statistics.stdev(ages)) 














csv 和 statistics 模 块 是 底层 的 、 快 速 而 粗糙 的 工具 。 在 第 6 章 , 你 将 了 解 如 何在 更 为 复杂 
的 项 目 中 使 用 pandas 的 数据 frame, 完成 那些 比 对 几 列 数据 进行 琐碎 的 检索 要 高 端 得 多 的 任务 。 
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JSON 是 一 种 轻 量 级 的 数据 交换 格式 。 该 格式 跟 编 程 语言 无 关 , 这 一 点 不 同 于 pickte 模 块 (第 
12 单 元 提 过 )， 但 在 数据 表示 方面 ，JSON 有 更 多 的 限制 ， 不 如 picktLe 灵 活 。 





什么 人 在 使 用 JSON? 


许多 流行 的 网 站 ， 比 如 Twitter2、Facebook2 和 Yahool Weather”， 都 提供 使 用 JSON 
作为 数据 交换 格式 的 API。 











JSON 支 持 以 下 数据 类 型 。 


口 原子 数据 类 型 一 一 字符 串 、 数 字 、true、false 和 null 
口 数组 一 一 使 用 方 括号 [] 表 示 ， 对 应 Python 的 列表 ， 数 组 各 项 可 以 使 用 不 同 的 数据 类 型 . 








QD dev.twitter.com/overview/documentation 
© developers.facebook.com 
@) developer.yahoo.com/weather/ 
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[1, 3.14, "a string", true, nulll] 
口 对 象 一 一 使 用 花 括 号 ( {} ) 表 示 , 对 应 Python 的 字典 , 对 象 各 项 由 冒号 分 隔 的 键 和 值 组 成 : 
{"age" : 37, "gender" : "male", "married" : true} 
口 数组 、 对 象 和 原子 数据 类 型 的 任何 递归 组 合 (对象 数组 、 项 为 数组 的 对 象 ， 等 等 ) 


有 一 个 不 尽 如 人 意 之 处 ， 那 就 是 某 些 Python 数 据 类 型 和 结构 ( 比如 集合 和 复数 ) 无 法 存储 在 
JSON 文 件 中 。 因 此 ， 要 在 导出 到 JSON 之 前 , 将 它们 转换 为 ISON 可 表示 的 数据 类 型 。 例 如 , 将 复 
数 存储 为 两 个 double 类 型 的 数字 组 成 的 数组 ， 将 集合 存储 为 一 个 由 集合 的 各 项 所 组 成 的 数组 。 

将 复杂 数据 存储 到 JSON 文 件 中 的 操作 称 为 序列 化 , 相应 的 反 向 操作 则 称 为 反 序列 化 。 Python 
通过 json 模 块 中 的 函数 ， 实 现 JSON 序 列 化 和 反 序 列 化 。 

函数 dump ( ) 将 一 个 能 用 JSON 表 示 的 Python 对 象 导出 (dump ) 到 先前 打开 的 文本 文件 。 函 数 
dumps() 导 出 的 Python 对 象 为 文本 字符 串 (这 是 为 了 打印 出 美观 的 结果 或 实现 进程 间 通 信 )。 
dump() 和 dumps () 这 两 个 函数 都 实现 了 序列 化 。 






































pickling 的 意义 

当 数 据 保 存 到 JSON 文 件 时 ， 只 是 保存 了 变量 的 值 ， 重 新 加 载 后 ， 这 些 值 都 是 相互 

独立 的 。 当 使 用 pickle 来 保存 同样 的 数据 时 ， 保 存 的 是 原始 变量 的 引用 ， 重 新 加 载 
后 ， 对 同一 变量 的 所 有 引用 关系 维持 不 变 。 





函数 Loads () 将 有 效 的 JSON 字 符 串 转换 为 Python 对 象 (即将 对 象 “加 载 ” 到 Python 中 )。 实 
际 中 ,总 会 遇 到 这 样 的 转换 。 类 似 地 ， 函 数 Load () 将 已 打开 的 文本 文件 的 内 容 转换 为 一 个 Python 
对 象 。 把 多 个 对 象 存储 在 一 个 JSON 文 件 中 是 一 种 错误 的 做 法 ,但 如 果 已 有 的 文件 包含 多 个 对 象 ， 
则 可 将 其 以 文本 的 方式 读 入 , 进而 将 文本 转换 为 对 象 数组 ( 在 文本 中 各 个 对 象 之 间 添 加 方 括号 和 
逗号 分 隔 符 )， 并 使 用 Loads ( ) 将 文本 反 序 列 化 为 对 象 列表 。 


以 下 代码 片段 实现 了 将 任意 ( 可 序列 化 的 ) 对 象 按 先 序列 化 、 后 反 序 列 化 的 顺序 进行 处 理 : 


object = «some serializable object» 

# 将 对 象 保存 到 文件 

with open("data.json", "w") as out json: 
json.dump(object, out json, indent=None, sort keys=False) 

# 从 文件 载 入 对 象 

with open("data.json") as in json: 
object1 = json.load(in json) 

# 将 对 象 序列 化 为 字符 囊 

json string = json.dumps (object1) 

# 把 字符 串 解析 为 JSON 

object2 = json.loads(json string) 


尽管 经 历 了 四 次 “痛苦 ”的 转换 ，object、object1 和 object2 仍 然 具 有 相同 的 值 。 


当 预 期 到 结果 可 能 会 被 进一步 处 理 或 导入 另 一 个 程序 时 ， 通 常 都 使 用 JSON 格 式 来 存储 最 终 
处 理 结果 。 
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根据 经 验 ， 所 有 潜在 的 可 用 数据 中 ， 约 80% 的 数据 是 非 结构 化 的 ， 其 中 包括 音频 、 视 频 、 
像 (这 些 内 容 超出 了 本 书 的 范围 ) 和 用 自然 语言 编写 的 文本 "。 自 然 语 言 中 的 文本 没有 标签 、 分 
隔 符 和 数据 类 型 , 但 它 仍然 是 丰富 的 信息 源 。 有 时 我 们 想 知 道 某 些 词 是 否 出 现在 文本 中 及 出 现 的 
频率 ( 词句 标记 ), 文本 属于 什么 类 别 ( 文 本 分 类 ), 它 传达 了 正面 的 还 是 负面 的 消息 ( 情感 分 析 )， 
文本 中 提 到 的 人 和 物 ( 实体 提取 )， 等 等 。 如 果 只 是 一 两 个 文本 ， 我 们 尚且 可 以 靠 肉 眼 来 读 取 和 
处 理 ， 但 对 于 大 规模 的 文本 分 析 ， 就 必须 借助 于 自然 语言 处 理 (NLP )。 


Python 的 nttk 模 块 (自然 语言 工具 包 ) 中 实现 了 很 多 NLP 的 功能 。 该 模块 围绕 语料库 〈 字 词 
和 表达 式 的 集合 )、 函 数 和 算法 进行 组 织 。 


















































NLTK 语料库 


语料库 是 单词 或 表达 式 的 结构 化 或 非 结 构 化 集合 。 所 有 NLIK 语 料 库 都 存储 在 模块 
ntltk.corpus 中 。 下 面 是 一 些 例 子 。 


口 gutenberg 一 一 包含 来 自古 登 堡 计划 的 十 八 个 英语 文本 ， 例 如 《 白 鲸 》 和 《圣经 》 

口 names 一 一 8000 名 男性 和 女性 名 字 的 列表 。 

口 words 一 一 235 000 个 最 常用 的 英语 单词 和 表单 的 列表 。 

口 stopwords 一 一 以 十 四 种 语言 列 出 的 停 用 词 ( 即 最 常用 的 词 ) 列表 。 英 文 列表 位 于 
stopwords .words ("english") 中 。 大 多 数 的 文本 分 析 都 要 删除 停 用 词 ， 因 为 通常 它们 
对 于 文本 的 理解 不 会 带 来 新 的 信息 。 

口 cmudict 一 一 诞生 在 卡 内 基 梅 隆 大 学 的 发 音字 典 ( 也 因此 而 得 名 )， 有 134 000 多 个 条 目 。 
cmudict.entries() 中 的 每 个 条 目 都 是 一 个 单词 和 一 个 音节 列表 组 成 的 元 组 ， 同 一 个 词 
可 能 有 几 种 不 同 的 发 音 。 这 个 语料库 可 用 于 识别 同音 词 (soundalikes )。 

nltk.corpus .wordnet 对 象 是 另 一 个 语料库 的 接口 一 一 一 个 在 线 语 义 词 网 络 WordNet ( 需要 
访问 互联 网 )。 该 网 络 是 用 词性 和 序列 号 标记 的 同义词 集合 : 


wn = nltk.corpus.wordnet # 语料库 读 取 器 
wn.synsets("cat") 
今 [Synset('cat.n.01'), Synset('guy.n.01'), «more synsets»] 


可 以 查找 每 个 同义词 的 定义 ， 这 可 能 是 一 个 意 想不到 的 功能 : 

















































































































QD www.informationweek.com/software/information-management/structure-models-and-meaning/d/d-id/1030187 





28 第 3 章 使 用 文本 数据 





wn.synset("cat.n.01").definition() 
wn.synset("cat.n.02").definition() 


今 'feline mammal usually having thick soft fur «...»' 
"an informal term for a youth or man' 


同义词 可 以 具有 上 义 词 (含义 较为 抽象 的 同义词 ) 和 下 义 词 (含义 较为 具体 的 同义词 )， 这 
些 功能 使 得 同义词 看 起 来 像 具 有 子 类 和 超 类 的 面向 对 象 ( OOP ) 类 。 


wn.synset("cat.n.01").hypernyms() 
wn.synset("cat.n.01").hyponyms() 








[Synset('feline.n.01')] 
今 [Synset('domestic cat.n.01'), Synset('wildcat.n.03')] 
最 后 , 可 以 使 用 WordNet 来 计算 两 个 同义词 组 之 间 的 语义 相似 性 。 相 似 度 是 范围 [0...1] 中 的 双 
精度 数 。 如 果 相 似 性 为 0， 则 同义词 是 无 关 的 ; 如 果 相 似 性 为 1 ， 则 同义词 是 完全 同义词 。 
x = wn.synset("cat.n.01") 


y = wn.synset ("lynx.n.01") 
x.path similarity(y) 























今 0.04 


上 面 提 到 的 是 两 个 词 之 间 的 相似 性 , 那么 任意 两 个 词 之 间 的 相似 性 如 何 分 析 呢 ? 让 我 们 来 看 
看 “dog” 和 “cat” 的 所 有 同义词 ， 并 找到 语义 最 接近 的 定义 : 


[simxy.definition() for simxy in max( 
(x.path similarity(y), x, y) 
for x in wn.synsets('cat') 
for y in wn.synsets('dog') 
if x.path similarity(y) # 确保 Synsets 是 相关 的 
)[1:]] 





> ['an informal term for a youth or man', 'informal term for a man'] 
真是 太 神奇 了 ! 


除了 使 用 标准 语料库 ， 还 可 以 通过 PLaintextCorpusReader 创建 自己 的 语料库 。 
PLaintextCorpusReader 会 在 根 目 录 中 查找 与 9Lob 模 式 匹 配 的 文件 。 


myCorpus = nltk.corpus.PlaintextCorpusReader(root, glob) 


函数 fileids() 返 回 包含 在 新 创建 的 语料库 中 的 文件 列表 。 函 数 raw() 返 回 语 料 库 中 原始 的 
“原始 ” 文本。 函数 sents () 返 回 所 有 句子 的 列表 。 函 数 words () 返 回 所 有 单词 的 列表 。 在 下 一 节 
中 ， 你 将 领略 到 把 原始 文本 转换 为 句子 和 单词 的 神奇 魔法 。 

myCorpus.fiLeids() 

myCorpus. raw() 


myCorpus.sents() 
myCorpus .words() 
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使 用 下 一 人 小节 介绍 的 函数 并 结合 Counter 对 象 ( 参考 第 7 单元 )， 可 以 计算 单词 出 现 的 频率 并 
识别 最 常用 的 单词 。 





NLTK 是 一 个 空 模块 
安装 模块 NLTK 时 ， 实际 上 只 安装 了 类 ， 而 未 安装 语料库 。 该 语料库 太 大 ,以 至 于 被 
认为 无 法 包含 在 发 行 版 中 。 第 一 次 导入 模块 时 ， 需 要 调用 download() 函 数 ( 需要 
连接 互联 网 )， 并 根据 需求 安装 缺失 的 部 件 。 








规范 化 


规范 化 是 用 自然 语言 的 表达 形式 对 文本 进行 整理 ,以 便 进一步 处 理 的 过 程 。 规范 化 通常 包括 
以 下 步 又 (不 一 定 严 格 参照 这 些 步 又 ， 但 基本 上 是 按 此 顺序 处 理 的 )。 


(1) 分 词 〈 将 文本 切 分 成 单词 ) NLTK 提 供 了 两 个 简单 的 和 两 个 较为 高 级 的 分 词 器 。 句 子 切 
分 器 返回 一 个 列表 , 列表 元 素 为 句子 字符 串 。 其 他 所 有 分 词 器 返回 的 都 是 一 个 单词 列表 : 


口 word tokenize(text) 一 一 切 分 单词 

口 sent_ tokenize(text) 一 一 切 分 句子 

口 regexp_tokenize(text，re) 一 一 基于 正则 表达 式 的 分 词 ， 参 数 re 是 描述 有 效 字 的 
正则 表达 式 


根据 分 词 器 的 质量 和 句子 的 标点 结构 ， 有 些 “ 词 ”可 以 包含 非 字母 字符 。 对 于 严重 依赖 
于 标点 符号 的 分 析 任 务 ( 例如 通过 表情 符号 的 情感 分 析 )， 需 要 用 到 更 为 高 级 的 
wordPunctcTokenizer。 下 面 是 wordPunctTokenizer.tokenize() 和 word tokenize() 
对 相同 文本 解析 结果 的 对 比 : 

from nLtk.tokenize import WordPunctTokenizer 

word punct = WordPunctTokenizer() 


text = "}Help! :))) :1 .,.., DT 
word punct.tokenize(text) 
































He MD 
nltk.word tokenize(text) 
= i “Help er he nL 
》 Di Ds Ee] 
(2) 将 单词 转换 为 大 小 写 相同 的 字符 ( 全 部 大 写 或 小 写 )。 
(3) 删除 停 用 词 。 使 用 语料库 中 的 停 用 词 和 其 他 特定 的 停 用 词 列表 作为 参考 。 需 要 注意 的 
是 ， 停 用 词 使 用 的 是 小 写字 母 。 语 料 库 中 并 不 存在 “THE” 这 个 停 用 词 (虽然 它 肯定 
是 停 用 词 )。 
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(4) 


(5) 


词 干 化 处 理 (将 各 种 词 形 转换 为 词 干 ) "。NLTK 提 供 两 个 基本 的 词 干 分 析 器 : 较为 保守 
的 Porter 和 较为 激进 的 Lancaster。 于 其 激进 的 规则 ， Lancaster 会 产生 更 多 的 音 形 相近 但 
含义 不 同 的 词 干 。 两 个 分 析 器 都 有 stem(word) ， 这 个 函数 会 返回 所 谓 的 词 干 : 


pstemmer = nltk.PorterStemmer() 
pstemmer.stem("wonderful") 


























'wonder' 


lstemmer = nltk.LancasterStemmer() 
lstemmer.stem("wonderful") 


"wond ' 
两 个 词 干 分 析 器 的 特点 在 于 : 仅 将 词 干 分 析 应 用 于 单个 单词 ， 而 不 是 完整 短语 。 


词 形 还 原 一 一 一 种 速度 更 慢 也 更 保守 的 词 干 分 析 机 制 。WordNetLemmatizer 查 找 
WordNet 中 算出 的 词 干 , 且 仪 接受 单词 或 表格 形式 的 词 干 。( 要 使 用 lemmatizer, 需要 访问 
互联 网 。) 函数 Lemmatize(word) 返 回 word 表 示 的 词 的 词 元 。 


Lemmatizer = nltk.WordNetLemmatizer() 
lemmatizer. lemmatize("wonderful") 





























'wonderful' 























男 外 ,虽然 在 技术 层面 上 ， 词 性 标注 ( POS 标注 ) 并 不 属于 规范 化 的 范畴 ,但 它 也 是 文本 预 
处 理 中 的 重要 步骤 。 函 数 nLltk.pos_tag (text ) 为 文本 中 的 每 个 单词 分 配 一 个 词性 标签 ， 其 中 文 
本 是 一 个 单词 列表 。 函 数 的 返回 值 是 一 个 元 组 列表 ， 其 中 元 组 的 第 一 个 元 素 是 原始 单词 ， 第 二 个 
元 素 是 标签 。 






































nltk.pos tag(["beavutiful", "world"]) 
# 一 个 形容 词 和 一 个 名 词 


> [( 


'beautiful', 'JJ'), ('world', 'NN')] 


下 面 的 代码 从 文件 ndex.html 中 找 出 了 10 个 最 常用 的 非 停 用 词 的 词 干 ， 这 个 例子 涵盖 了 上 面 
提 到 的 知识 点 ， 以 及 在 第 13 单 元 介绍 的 BeautifulSoup。 


from bs4 import BeautifulSoup 
from collections import Counter 
from nltk.corpus import stopwords 
from nltk import LancasterStemmer 





# 创建 一 个 新 词 干 


ls 


= nltk.LancasterStemmer() 


# 读 取 文件 并 生成 SOUp 





四 对 


型 








于 英文 而 言 ， 所 谓 的 词 干 化 处 理 主要 包括 把 名 词 的 复数 形式 变 成 单数 ， 将 其 他 时 态 变 成 基本 形态 等 类 似 的 处 
E。 一 一 译 者 注 
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with open("index.html") as infile: 
soup = BeautifulSoup(infile) 


# 提取 并 标记 文本 
words = nltk.word tokenize(soup.text) 


# 转换 为 小 写 
words = [w.Lower() for w in words] 


# 删除 停止 单词 ， 并 分 析 剩 余部 分 的 词 干 
words = [ls.stem(w) for w in text if w not in 
stopwords.words("english") and w.isalnum()] 





# 对 词 进行 计数 
freqs = Counter(words) 
print(freqs.most common(10)) 


本 段 代码 可 以 作为 实现 主题 抽取 的 第 一 步 。 





其 他 文本 处 理 程序 
关于 其 他 高 级 NLP 程序 的 讨论 超出 了 本 书 范围 ， 此 处 简要 地 罗列 几 项 。 


D 分 段 一 一 在 没有 特定 的 单词 边界 语法 的 文本 中 ( 例如， 中 文 文本 中 ) 对 “单词 ”的 边界 
进行 识别 。 可 以 将 分 段 方法 应 用 于 任何 字符 或 数字 序列 ( 例如, 购物 清单 、DNA 片 段 等 )。 
口 文本 分 类 -根据 预 设 的 条 件 将 文本 划分 到 某 一 已 知 类 别 中 。 人 情绪 分 析 是 文本 分 类 的 一 
种 特殊 情况 ， 通 常 以 情绪 词 的 出 现 频 率 作为 分 析 的 基础 。 

口 实体 提取 一 一 检测 具有 预定 属性 的 单词 或 短语 ,通常 指 实体 ,例如 人 、 地 理 位 置 、 公 司 、 
产品 和 品牌 。 
O 潜在 语义 索引 一 一 使 用 奇异 值 分 解 ( SVD ) 在 非 结 构 化 文本 集合 中 识别 出 术语 与 概念 之 
间 关 系 的 模式 。 顺 便 指 出 ，SVD 在 统计 学 上 又 被 称 为 主 成 分 分 析 (PCA )。 


轮 到 你 了 


至 此 ， 你 已 知道 如 何 从 现 有 的 HTML、XML、CSV 或 ISON 文 件 中 (甚至 从 纯 文 本 中 ) 提取 
有 价值 的 数据 ,也 了 解 了 HTML 和 XMIL 标 签 及 其 结构 ,能 从 数据 中 分 离 标 签 ， 并 规范 化 字 词 (至 
少 可 以 实现 一 定 程 度 的 规范 化 )。 懂 得 这 些 后 ， 你 可 以 完成 很 多 大 项 目 了 一 一 当然 你 还 需要 一 些 
耐心 。 现 在 让 我 们 来 做 一 些 练习 ! 


口 失效 链接 检测 器 * 
编写 一 个 程序 ， 基 于 一 个 给 定 网 页 的 URL， 报 出 页 面 中 失效 链接 的 名 称 和 地 址 。 出 于 练 
习 的 目的 ， 约定 当 使 用 urtlib. request.urlopen() 打 开 链 接 失败 时 ， 则 认为 链接 失效 。 
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口 维基 百科 矿工 ** 
MediaWiki (一 个 维基 百科 项 目 ”) 提供 了 基于 JSON 的 API， 可 以 实现 对 维基 百科 数据 和 
元 数据 的 可 编程 访问 。 编 写 一 个 程序 ， 报 出 标题 为 “Data science” 的 维基 百科 页 面 中 使 
用 频率 最 高 的 十 个 词 干 。 
实现 提示 如 下 。 

和 使 用 HTTP， 而 不 是 HTTPS。 

@ 阅读 MediaWiki 网 站 上 的 “simple example”， 并 将 其 作为 程序 的 基础 。 

@ 首先 ， 按 标题 获取 页 面 ID ， 然 后 按 ID 获取 页 面 。 

@ 阅读 JSON 数 据 ， 留 意 不 同 层次 的 密 钥 : 在 写作 本 书 时 ， 答 案 具 有 六 个 层次 的 深度 ! 

口 音乐 流派 分 类 器 *** 
编写 一 个 程序 ， 使 用 维基 百科 计算 不 同 的 摇滚/ 流行 音乐 流派 之 间 的 语义 相似 性 。 从 按 类 
型 ?分 类 的 主要 音乐 组 的 列表 开始 。( 注意 ， 列 表 是 分 层 的 ， 而 且 包含 子 类 ! ) 递归 处 理 列 
表 及 其 子 列表 ， 直 到 找 出 所 有 相关 组 ( 为 了 节省 时 间 和 流量 ， 可 以 通过 选取 固定 的 子 类 
别 ， 例 如 英国 摇滚 类 ， 实 现 对 搜索 的 限制 )。 如 果 可 能 的 话 ， 对 于 每 个 发 现 的 组 ， 提 取 其 
类 型 。 使 用 Jaccard 相 似 性 指数 ?作为 语义 相似 性 的 度量 : 对 于 每 一 个 类 型 组 A 和 B， 
J(A,B)=|ANB/A UB|=|CW(AIHIB|-|C)， 其 中 |A|、|B| 分 别 是 列 出 类 型 A、B 的 组 的 数量 ，|C| 
则 是 同时 列 出 A 和 B 的 组 的 数量 。 将 运行 结果 保存 (pickle )， 以 备 将 来 使 用 。 相 信 我 ， 你 
不 会 愿意 多 次 运行 这 个 程序 的 ! 


顺便 提 一 下 ， 本 程序 计算 出 共有 多 少 种 类 型 以 及 最 相关 的 类 型 是 什么 ? 










































































QD www.mediawiki.org/wiki/APIMain page 
© en.wikipedia.org/wiki/Category:Rock music groups by genre 
® en.wikipedia.org/wiki/Jaccard_index 


哪些 是 女神 ? ………: 第 十 个 是 Vor， 她 是 如 此 聪明 ， 没 有 什么 可 以 瞒 得 了 她 。 
冰岛 历史 学 家 、 诗 人 和 政治 家 Snorri Sturluson 





第 4 章 


使 用 数据 库 











你 学 习 (或 实践 ) 了 数据 科学 ， 也 掌握 了 如 何 将 磁盘 文件 中 的 原始 数据 以 Python 数据 结构 导 
入 。 让 我 们 趁 热 打铁 ,开启 数据 科学 的 男 一 个 主题 一 一 数据 库 个 用 于 长 期 存储 数据 的 工具 。 
数据 库 是 整个 数据 分 析 过 程 中 的 重要 组 成 部 分 。 
口 通常 ， 输 入 数据 是 以 数据 库 表 的 形式 提供 的 。 为 实现 进一步 的 处 理 ， 必 须 从 数据 库 中 将 
数据 检索 出 来 。 
口 数据 库 能 实现 高 度 优 化 、 快 速 且 非 易 失 性 的 数据 存储 ， 可 用 于 存储 原始 数据 、 中 间 结 
和 最 终结 果 (无论 原始 数据 是 否 存储 在 数据 库 中 )。 
口 数据 库 提 供 高 度 优化 的 数据 转换 ， 包 括 排序 、 选 择 和 连接 功能 。 如 果 数 据 库 中 已 经 存在 
原始 数据 或 中 间 结 果 ， 则 还 可 以 实现 数据 聚合 。 


本 章 将 结合 MySQL 和 MongoDB (或 NoSQL 数 据 库 ) 一 一 当前 最 流行 的 关系 数据 库 之 一 和 最 
流行 的 文档 存储 一 一 探索 如 何 设置 、 配 置 、 填 充 和 查询 数据 。 你 很 可 能 已 经 知道 怎么 将 这 些 数据 
库 作 为 预 配置 和 预 填充 的 数据 源 了 , 但 进一步 了 解数 据 库 引 擎 丰富 的 内 部 世界 依然 是 有 益 的 。 它 
不 仅 能 使 你 成 为 一 名 更 优秀 的 程序 员 ， 也 能 为 学 习 后 续 章 节 中 的 pandas 模 块 〈 第 6 章 ) 英 定 坚实 
的 基础 。 
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关系 数据 库 是 用 于 实现 数据 永久 存储 的 一 组 表 , 同时 还 可 能 具有 数据 排序 和 索引 的 功能 。 关 
系数 据 库 非常 适合 存储 表格 数据 〈 例如 CSV 文 件 中 的 数据 )， 其 中 每 一 个 表 代 表 一 种 变量 类 型 ， 
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第 
表 的 列 对 应 变量 ， 表 的 行 对 应 观测 值 或 记录 。 
虽然 不 使 用 Python 也 可 以 操作 数据 库 ， 但 你 至 少 需要 知道 结构 化 查询 语言 (SQL ) 或 其 特定 
实现 (例如 MySQL )， 这 是 通过 命令 行 或 Python 应 用 程序 访问 关系 数据 库 的 基础 。 

另外 ， 你 需要 安装 一 个 MySQL 客 户 端 (例如 mysqt )， 才 能 通过 命令 行 与 运行 中 的 MySQL 数 
据 库 服务 器 进行 交互 。 所 有 MySQL 命 令 都 是 不 区 分 大 小 写 的 ， 而 且 每 条 命令 必须 以 分 号 结尾 。 
以 数据 库 管理 员 的 身份 使 用 mysq1L 启 动 一 个 新 的 数据 库 项 目 ( 这些 操 作 只 需要 执行 一 次 )。 
(1) 在 shell 命 令 行 中 启动 mysqtL: 


c:\myProject> mysql -uyu root -p 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or \g. 
«More mysql output» 

mysql> 


后 续 所 有 的 指令 都 在 mysq1 命 令 行 提示 符 下 输入 。 
(2) 创建 新 的 数据 库 用 户 (“dsuser”) 和 密码 (“badpassw0rd”): 
CREATE USER 'dsuser'@'localhost' IDENTIFIED BY 'badpasswOrd'; 
(3) 给 项 目 创建 一 个 新 数据 库 (“dsdb” ): 
CREATE DATABASE dsdb; 
(4) 授予 新 用 户 对 新 数据 库 的 访问 权限 : 
GRANT ALL ON dsdb.* TO 'dsuser'@'localhost'; 
现在 ， 可 以 在 数据 库 dsdb 中 创建 新 表 了 。 使 用 同样 的 mysq1l 客 户 端 ， 以 常规 用 户 身 份 登录 : 


c:\myProject> mysql -u dsuser -p dsdb 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or \g. 

«More mysql output» 

mysql> 

通常 , 表 都 是 一 次 创建 而 多 次 访问 的 。 创建 表 之 后 ,可 以 根据 项 目 需求 更 改 其 属性 。CREATE 
TABLE 命 令 创建 一 个 新 表 ， 后 跟 表 名 和 所 有 的 列 信息 组 成 的 列表 。 每 个 列 信息 按 列 名 称 和 该 列 数 
据 类 型 的 顺序 进行 定义 。 最 常见 的 MySQL 数 据 类 型 是 TINYINT 、SMALLINT INT、FLOAT DOUBLE、 
CHAR 、VARCHAR 、TINYTEXT 、TEXT 、DATE、TIME、DATETIME 和 TIMESTAMP。 


以 下 命令 使 用 empname ( 可 变 长 度 的 文本 )、salary ( 浮 点 数 ) 和 hired (日 期 ) 列 创建 表 
empLoyee。 表 中 的 每 个 记录 代表 一 个 员工 。 


USE dsdb; 
CREATE TABLE empLoyee (empname TINYTEXT, salary FLOAT, hired DATE) 










































































今 Query OK, 0 rows affected (0.17 sec) 
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对 于 不 再 需要 的 表 ， 可 将 其 从 数据 库 中 删 去 。 


DROP TABLE employee; 





今 Query OK, 0 rows affected (0.05 sec) 


DROP 命 令 简短 精炼 , 且 不 可 撤销 。 正 所 谓 履 水 难 收 , 在 删除 任何 东西 之 前 , 请 务必 考虑 清楚 | 











数据 库 架 构 
、 ”数据 库 架 构 是 描述 所 有 表 、 列 、 数 据 类 型 、 索 引 、 约 束 以 及 不 同 表 之 间 关 系 的 数据 
库 结 构 。 架 构 是 数据 库 的 核心 : 将 一 个 数据 库 的 所 有 表 中 的 数据 删除 后 ， 剩 下 的 就 
是 数据 库 的 架构 。 











只 要 存储 空间 允许 , 应 使 得 每 条 记录 都 能 自动 生成 主键 和 自动 更 新 最 后 修改 的 时 间 戳 , 尽管 
这 并 非 任 何 编程 语言 的 标准 。 主 键 可 以 确保 记录 的 唯一 性 ,还 可 以 加 快 搜索 的 速度 。 最 后 修改 的 
时 间 戳 使 数据 具备 一 定 的 可 追溯 性 ， 而 关键 字 NOT_ NULL 标 记 的 列 确保 每 条 记录 在 该 列 都 具备 一 
个 有 效 值 : 
CREATE TABLE employee (id INT PRIMARY KEY AUTO_INCREMENT, 
updated TIMESTAMP，empname TINYTEXT NOT NULL, salary FLOAT NOT NULL, 
hired DATE) ; 
如 果 想 使 用 列 ( 变量 ) 进行 排序 、 搜 索 或 连接 ， 就 需要 给 该 列 添加 索引 : 


ALTER TABLE employee ADD INDEX(hired); 





























今 Query OK, 0 rows affected (0.22 sec) 
> Records: 0 DupLicates: 0 Warnings: 0 


注意 ,索引 大 大 增加 了 查询 的 时 间 ， 同 时 也 显著 增加 了 插入 和 删除 的 时 间 。 另 外 ， 只 有 在 将 
大 量 数 据 插入 表 中 之 后 ， 才 能 创建 索引 。 如 果 要 搬入 新 的 数据 ， 首 先 需 要 删除 已 有 的 索引 : 

DROP INDEX hired ON employee; 

然后 才能 插入 数据 并 重新 添加 索引 。 


如 果 某 一 列 中 所 有 的 值 都 是 唯一 的 (例如 员工 ID 号 或 姓名 )， 那 就 应 该 给 该 列 添加 UNIQUE 约 
束 。 如 果 UNIQUE 约 束 的 列 使 用 了 长 度 可 变 的 数据 类 型 ( 例如 VARCHAR 、TINYTEXT 或 TEXT )， 则 必 
须 指定 相应 的 长 度 : 


ALTER TABLE employee ADD UNIQUE (empname(255)); 


主键 总 是 有 一 个 值 (使 用 NOT NULL 标 记 )， 而 且 它 既是 一 个 INDEX， 也 是 UNIQUE 的 。 












































36 


第 4 章 使 用 数据 库 
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使 用 MySQL 数据 库 : 命令 行 





MySQL 文 持 五 种 基本 的 数据 库 操作 : 插入、 删除 、 变 更 、 选 择 和 连接 。 这 些 操作 可 以 完成 








数据 库 表 的 填充 ， 以 及 修改 和 检索 现 有 数据 。 这 些 操作 通常 包含 在 数据 分 析 程序 中 , 但 为 了 建立 
对 它们 的 认识 ， 我 们 将 首先 在 mysq1 命 令 行 提示 符 下 练习 它们 。 























插入 








插入 是 最 重要 的 命令 , 我 们 就 从 它 开 始 介绍 。 下 面 我 们 将 插入 一 条 新 的 记录 到 一 张 表 中 , 并 


重复 这 一 操作 ， 直 到 所 有 的 观测 值 都 被 记录 到 表 中 


日 


INSERT INTO empLoyee VALUES(NULL,NULL, "John Smith",35000,NOW() ) ; 


>» Query OK, 1 row affected, 1 warning (0.18 sec) 


前 两 个 NULL 是 索引 和 时 间 蕉 的 占 位 符 值 ， 服 务 融会 自动 算出 它们 的 值 。 函 数 NOW( ) 返 回 当前 














明 








和 时 间 ,， 但 是 只 有 “日 期 ”部 分 会 写 人 记录 中 。 注 意 , 查询 产生 了 一 个 警告 ， 该 警告 的 来 源 














就 是 对 后 者 (“时 间 ”) 的 截断 。 下 面 的 代码 用 于 查看 最 近 的 警告 和 错误 的 文字 描述 : 








SHOW WARNINGS; 


> +------- +------ +-------------------------------------------- 十 
>» | Level | Code | Message | 
> +------- +------ +-------------------------------------------- 十 
> | Note | 1265 | Data truncated for column 'hired' at row 1 | 

+------- +------ +-------------------------------------------- 十 


>» 1 row in set (0.00 sec) 























如 果 搬 入 操作 违反 了 UNIQUE 约 束 ， 服 务 咒 就 会 中 止 操作 ， 除 非 使 用 了 IGNORE 关 键 字 。 在 这 





种 情况 下 ， 插 入 操作 失败 : 


INSERT INTO empLoyee VALUES(NULL,NULL, "John Smith",35000,NOW() ) ; 


> ERROR 1062 (23000): DupLicate entry 'John Smith' for key 'empname' 


INSERT IGNORE INTO employee VALUES(NULL,NULL, "John Smith",35000,NOW() ) ， 


» Query OK, 0 rows affected, 1 warning (0.14 sec) 








可 以 手动 插入 更 多 的 行 ， 不 过 首选 方法 是 用 Python 来 完成 其 余 的 插入 。 
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删除 


删除 操作 从 表 中 删除 所 有 与 搜索 条 件 匹配 的 记录 。 如 果 没 有 指定 搜索 条 件 ， 服务 器 就 会 删除 
所 有 记录 : 


-- 如 果 John Smith 是 一 个 低 收入 者 ， 就 将 他 的 记录 删除 

DELETE FROM employee WHERE salary<11000 AND empname="John Smith"; 
- 删除 所 有 记录 

DELETE FROM employee; 


如 果 只 想 删 除 某 条 特定 的 记录 ， 则 应 使 用 其 唯一 主键 或 任何 其 他 的 具有 唯一 性 标识 的 条 件 : 
DELETE FROM employee WHERE id=387513; 


需要 强调 的 是 ， 任 何 时 候 都 要 记 住 ， 删 除 操作 是 不 可 撤销 的 ! 


























变更 操作 会 找到 与 搜索 条 件 相 匹配 的 记录 ,更 新 其 指定 列 的 值 。 如 果 未 指定 搜索 条 件 ， 则 变 
更 操作 将 影响 所 有 记录 : 

-- 重 置 最 近 招 入 的 员工 工资 

UPDATE empLoyee SET salary=35000 WHERE hired=CURDATE(); 


- 再 次 增加 John Smith 的 工资 
UPDATE employee SET salary=salary+1000 WHERE empname="John Smith"; 





今 Query OK, 1 row affected (0.06 sec) 
> Rows matched: 1 Changed: 1 Warnings: 0 


想必 你 已 经 猜 到 了 : 变更 也 是 不 可 撤销 的 。 实际 上 , 它 跟 删 除 操作 一 样 , 是 一 个 破坏 性 的 操作 。 

















选择 


选择 操作 在 与 搜索 条 件 匹 配 的 所 有 记录 中 选 出 所 有 请 求 的 列 。 如 果 未 指定 搜索 条 件 , 则 将 获 
得 所 有 记录 ; 这 种 操作 得 到 的 数据 记录 的 数量 可 能 远 超 出 你 的 需求 。 


SELECT empname, salary FROM empLoyee WHERE empname="John Smith"; 











今 +---------- +-------- 十 
今 | empname | salary | 
今 +------------ +-------- + 
今 | John Smith | 36000 | 
= +t-------= 


今 1 row in set (0.00 sec) 
SELECT empname, salary FROM empLoyee 
今 +-------------- +-------- 十 


今 | empname | salary | 
今 +-------------- +-------- + 
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| John Smith | 36000 | 
| Jane Doe | 75000 | 
| Abe Lincoln | 0.01 | 
| Anon I. Muss | 14000 | 


4 rows in set (0.00 sec) 


可 以 通过 对 结果 进行 排序 、 分 组 、 聚 合 和 过 滤 来 增强 选择 的 功能 。 若 想 对 选择 结果 排序 ， 需 
要 使 用 ORDER BY 修饰 符 〈 可 实现 多 列 数 据 的 降序 排列 或 升序 排列 ): 


SELECT * FROM empLoyee WHERE hired>='2000-01-01' ORDER BY salary DESC; 




















> +----+--------------------- +-------------- +-------- +------------ 十 
| id | updated | empname | salary | hired 
+----+- +------ +-------- +------------ 十 
| 4 | 2016-01-09 17:35:11 | Jane Doe | 75000 | 2011-11-11 | 
| 1 | 2016-01-09 17:31:29 | John Smith | 36000 | 2016-01-09 | 
| 6 | 2016-01-09 17:55:24 | Anon I. Muss | 14000 | 2011-01-01 | 
> +----+--------------------- +-------------- +-------- +------------ 十 


» 3 rows in set (0.01 sec) 
若 想 对 选择 结果 进行 分 组 和 聚合 ， 需 要 使 用 GROUP BY 修饰 符 和 聚合 函数 ( 比如 COUNT()、 
MIN()、MAX()、SUM() 或 AVG() ): 


SELECT (hired>'2001-01-01') AS Recent,AVG(salary) 
FROM employee 
GROUP BY (hired>'2001-01-01'); 




















+-------- +---------------------- 十 
| Recent | AVG(salary) | 
+-------- +---------------------- 十 
| 0 | 0.009999999776482582 | 
| 1 | 41666.666666666664 | 
+-------- +---------------------- 十 


2 rows in set (0.00 sec) 

后 一 个 语句 计算 并 给 出 每 组 员工 的 平均 工资 ， 分 组 的 依据 是 员工 的 招聘 时 间 在 2001 年 1 月 1 
日 之 前 还 是 之 后 ， 也 就 是 招聘 时 间 本 身 。 

使 用 WHERE 和 HAVING 关 键 字 可 以 对 选择 结果 进行 过 泪 。 服 务 顺 在 分 组 之 前 执行 WHERE 命令 ， 
并 在 分 组 之 后 执行 HAVING 命 令 。 


SELECT AVG(salary),MIN(hired),MAX(hired) FROM employee 
GROUP BY YEAR(hired) 
HAVING MIN(hired)>'2001-01-01'; 



































+------------- +------------ +------------ + 
| AVG(salary) | MIN(hired) | MAX(hired) | 

> +----- +------------ +------------ + 
| 44500 | 2011-01-01 | 2011-11-11 | 
| 36000 | 2016-01-09 | 2016-01-09 | 
+------------- +------------ +------------ + 
2 rows in set (0.00 sec) 
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这 条 语句 计算 并 给 出 2001 年 1 月 1 日 后 同一 年 度 内 招聘 员工 的 平均 工资 , 同时 给 出 每 个 年 度 最 
早 的 和 最 新 的 员工 招聘 时 间 。 




















连接 





连接 操作 基于 一 列 或 多 列 ， 完 成 两 个 表 的 合并 。MySQL 文 持 五 种 类 型 的 连接 : 内 连接 ( 具 
有 所 谓 的 直接 连接 的 含义 )、 左 连接 、 右 连接 、 外 连接 和 自然 连接 。 后 者 也 可 以 是 左 连接 或 右 连 
接 。 当 两 个 表 中 存在 至 少 一 个 匹配 时 ， 内 连接 返回 匹配 的 行 。 左 连接 / 右 连接 分 别 连接 左 / 右 表 中 
的 所 有 行 ， 即使 在 男 一 侧 没 有 匹配 ， 也 能 实现 连接 。 外 连接 返回 在 任意 表 中 具有 匹配 的 行 。 如 果 
一 个 表 没 有 匹配 , 则 服务 右 返 回 NULL。 自然 连接 的 行为 类 似 于 外 连接 , 不 同 之 处 在 于 它 隐 式 涉及 
名 称 相同 的 所 有 列 。 


以 下 命令 创建 包含 员工 职位 的 新 表 , 然后 为 准备 用 于 连接 的 列 添加 索引 , 最 后 从 两 个 表 中 提 
取 员 工 姓名 和 职位 (后面 的 操作 使 用 了 隐 式 内 连接 的 语法 ): 


- 准备 并 填充 另 一 张 表 

CREATE TABLE position (eid INT, description TEXT) ; 

INSERT INTO position (eid,description) VALUES (6,'Imposter'), 
(1,'Accountant'), (4,'Programmer'),(5,'President'); 

ALTER TABLE position ADD INDEX(eid); 






































- 获取 连接 后 的 数据 

SELECT empLoyee ,empname,position,description 
FROM employee,position WHERE empLoyee.id=position,eid 
ORDER BY position.description; 


今 +-------------- +------------- 十 
今 | empname | description | 
今 +-------------- +------------- + 
今 | John Smith | Accountant | 
今 | Anon I. Muss | Imposter | 
今 | Abe Lincoln | President | 
今 | Jane Doe | Programmer | 


今 4 rows in set (0.00 sec) 
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Python 使 用 数据 库 驱 动 模块 与 MySQL 通 信 。 诸如 pymysq1l 等 许多 数据 库 驱 动 都 是 免费 的 。 本 
单元 将 使 用 pymysql， 它 是 Anaconda 的 一 部 分 。 驱 动 程序 经 过 激活 后 与 数据 库 服 务 器 相连 ， 然 后 
将 Python 的 函数 调用 转换 为 数据 库 查 询 ， 反 过 来 ， 将 数据 库 结果 转换 为 Python 数 据 结 构 。 
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connect ( ) 函数 需要 以 下 信息 : 数据 库 ( 名 称 )、 数 据 库 服务 器 的 位 置 ( 主机 和 端口 号 ) 和 











数据 库 用 户 ( 名 称 和 密码 ) 如 果 数 据 库 成 功 连接 ， 则 返回 连接 标识 符 。 接 下 来 ， 创 建 与 数据 库 
连接 相关 联 的 数据 库 游标 : 





conn = pymysql.connect(host="localhost", port=3306, 
user="dsuser", passwd="badpassword", db="dsdb") 
cur = conn.cursor() 


游标 的 execute() 函数 向 数据 服务 器 提交 要 执行 的 查询 命令 ,并 返回 受 影响 的 行 数 ( 如 果 查 
































询 是 非 破坏 性 的 ， 则 返回 零 )。 查 询 命令 只 是 一 个 字符 串 ， 其 构建 方法 参考 上 一 单元 。 与 命令 行 
MySQL 查 询 不 同 ，pymysql 查 询 语句 不 需要 在 结尾 加 上 分 号 。 





query = """ 

SELECT employee.empname,position.description 
FROM employee,position WHERE employee.id=position.eid 
ORDER BY position.description 


n_rows = cur.execute(query) 


如 果 提 交 非 破坏 性 查询 ( 比如 SELECT ), 需 要 使 用 游标 函数 fetchattL () 获 取 所 有 匹配 的 记录 。 


该 函数 返回 一 个 生成 恬 ， 可 以 将 其 转换 为 列 字 段 的 元 组 构成 的 列表 : 


results = list(cur.fetchall()) 


> [('John Smith', 'Accountant'), ('Anon I. Muss', 'Imposter'), 


('Abe Lincoln', 'President'), ('Jane Doe', 'Programmer')] 


如 果 查 询 是 破坏 性 的 (例如 UPDATE、DELETE 或 TNSERT )， 则 必须 执行 commit 操 作 。( 注意 ， 



































提供 commit() 函数 的 是 连接 本 身 ， 而 不 是 游标 。) 


作 ， 


conn. commit () 
如 果 在 一 个 破坏 性 查询 之 后 没有 执行 commit ， 服 务 需 就 不 会 修改 表 。 


关系 数据 库 自 1974 年 以 来 沿用 至 今 (Ingres ) "。 它们 在 数据 规范 化 方面 展开 了 很 多 伟大 的 工 
使 得 数据 可 以 自然 地 分 解 为 表 、 列 和 行 ， 这 可 以 说 是 关系 数据 库 带 给 人 们 的 馈赠 。 其 实 , 任 


























何 数据 集 都 可 以 被 规范 化 , 但 是 规范 化 的 代价 可 能 非常 大 (无 论 是 在 实现 规范 化 方面 , 还 是 在 最 
终 查询 性 能 方面 )。 某 些 类 型 的 数据 是 不 遵循 规范 化 约定 的 ， 比 如 文本 文档 、 图 像 、 音 频 和 视频 
剪辑 ， 以 及 不 规则 数据 结构 。 对 于 这 些 数据 ,不 应 强制 它们 遵循 SQL 规范 ， 而 应 选择 一 个 NoSQL 
文档 来 存储 它们 。 接 下 来 ， 我 们 就 来 介绍 相关 的 内 容 。 




















(Wh uickbase.intuit.com/articles/timeline-of-database-history 


第 20 单元 ”改善 文档 存储 : MongoDB 41 





第 20 单元 
改善 文档 存储 : MongoDB 











文档 存储 ( 即 一 个 NoSQL 数 据 库 ) 是 一 个 具有 属性 的 对 象 ( 通常 称 为 文档 ) 的 非 易 失 性 集合 。 
目前 ， 人 们 已 经 开发 了 许多 不 同 的 文档 存储 的 实现 方案 。 本 单元 重点 分 析 其 中 一 种 实现 方案 一 一 
MongoDB， 并 简要 介绍 其 最 主要 的 竞争 对 手 CouchDB 。 


MongoDB 是 一 个 非 关系 型 数据 库 。 一 个 MongoDB 服 务 器 可 以 支持 多 个 不 相关 的 数据 库 。 数 
据 库 由 一 个 或 多 个 文档 集合 组 成 ， 集 合 中 的 所 有 文档 都 有 唯一 的 标识 符 。 


在 Python 中 ,我 们 用 pymongo 模 块 中 MongoClient 类 的 实例 来 实现 MongoDB 客 户 端 。 可 以 创 汪 河 
建 一 个 无 参数 的 客户 端 (适用 于 典型 的 安装 了 本 地 服务 器 的 情况 )， 也 可 以 用 服务 器 的 主机 名 和 
端口 号 作为 参数 创建 客户 端 ， 或 使 用 服务 器 的 统一 资源 标识 符 ( URI ) 作为 参数 创建 客户 端 : 

import pymongo as mongo 

人 # 使 用 默认 的 初始 化 方式 

clientl1 = mongo.MongoClient() 

# 指定 主机 和 端口 号 

client2 = mongo.MongoClient("localhost", 27017) 

## 用 URI 方 式 指定 主机 和 端口 号 

client3 = mongo.MongoClient("mongodb://localhost:27017/") 


客户 一 旦 端 建立 了 与 数据 库 服务 器 的 连接 ,就 可 以 选择 当前 激活 的 数据 库 , 进而 选择 激活 的 
合 。 您 可 以 使 用 面向 对 象 (“点 ”) 或 字典 样式 的 符号 。 如 果 所 选 的 数据 库 或 集合 不 存在 ， 服 务 
器 会 立即 创建 它们 : 
创建 并 选择 活动 数据 库 的 两 种 方法 


Lient1.dsdb 
lient1l["dsdb"] 




























































































# 
d C 
d C 





# 创建 并 选择 活动 集合 的 两 种 方法 
people = db.people 
people = db["people"] 


pymongo 模 块 用 字典 变量 来 表示 MongoDB 文 档 。 表 示 对 象 的 每 个 字典 必须 具有 _id 这 个 键 。 
如 果 该 键 不 存在 ， 服 务 器 会 自动 生成 它 。 


集合 对 象 提供 用 于 在 文档 集合 中 插入、 搜索 、 删 除 、 更 新 、 替 换 和 聚合 文档 以 及 创建 索引 的 





























郴 数 insert_one(doc) 和 insert_many(docs) 将 文档 或 文档 列表 插入 集合 。 它 们 分 别 返回 
对 象 InsertOneResult 或 TnsertManyResult, 这 两 个 对 象 分 别提 供 inserted_ id 和 inserted ids 








QD ouchdb.apache.org 
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属性 。 当 文档 没有 明确 的 键 时 ， 就 需要 使 用 这 些 属 性 来 找 出 文档 的 键 。 如 果 指 定 了 _id 键 ， 则 在 
执行 插入 操作 后 ， 该 键 值 也 不 会 改变 : 
personl = {"empname" : "John Smith", "dob" : "1957-12-24"} 


person2 = {"_id" : "XVT162", "empname" : "Jane Doe", "dob" : "1964-05-16"} 
person idl = people.insert one(person1).inserted id 


ObjectId('5691a8720f759d05092d311b') 


# 注意 出 现 了 一 个 新 的 名 为 “id” 的 键 | 
personl 


{'empname': 'John Smith', 'dob': '1957-12-24', 
'_id': ObjectId('5691a8720f759d05092d311b' )} 


person id2 = people.insert one(person2).inserted id 


"XVT162" 


persons = [{"empname" : "Abe Lincoln", "dob" :; "1809-02-12"}, 
{"empname" : "Anon I. Muss"}] 

result = people.insert many(persons) 

result.inserted ids 


[ObjectId('5691a9900f759d05092d311c')， 
ObjectId('5691a9900f759d05092d311d')] 


函数 find_one() 和 find() 给 出 匹配 可 选 属性 的 一 个 或 多 个 文档 ， 其 中 find_one() 返 回 文 
档 ， 而 find() 返 回 一 个 游标 (一 个 生成 器 )， 可 以 使 用 List() 函数 将 该 游标 转换 为 列表 ， 或 者 在 
for 循 环 中 将 其 用 作 和 迭代 器 。 如 果 将 字典 作为 参数 传递 给 这 些 函 数 中 的 任意 一 个 ， 函 数 将 给 出 与 
字典 的 所 有 键 值 相等 的 文档 : 


everyone = people.find() 
list(everyone) 


[{'empname': 'John Smith', 'dob': '1957-12-24', 
'_id': 0bjectId('5691a8720f759d05092d311b' )}， 
{'empname': 'Jane Doe', 'dob': '1964-05-16'，' id': 'XVT162'}, 
{'empname': 'Abe Lincoln', 'dob': '1809-02-12', 
'_id': 0bjectId('5691a9900f759d05092d311c' )}， 
{'empname': 'Anon I. Muss', '_id': ObjectId('5691a9900f759d05092d311d')}] 


list(people.find({"dob" : "1957-12-24"})) 


[{'empname': 'John Smith', 'dob': '1957-12-24', 
"id': 0bjectId('5691a8720f759d05092d311b' )}] 


people.find one() 


[{'empname': 'John Smith', 'dob': '1957-12-24', 
'_id': 0bjectId('5691a8720f759d05092d311b' )}] 
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people.find one({"empname" : "Abe Lincoln"}) 


>» {'empname': 'Abe Lincoln', 'dob': '1809-02-12'， 
'_id': ObjectId('5691a9900f759d05092d311c')} 


people.find one({" _ id" : "XVT162"}) 
> {'empname': 'Jane Doe', 'dob': '1964-05-16', '_id': 'XVT162'} 


下 面 介绍 几 个 实现 数据 聚合 和 排序 的 分 组 和 排序 函数 。 函 数 sort ( ) 对 查询 的 结果 进行 排序 。 
当 以 无 参数 的 方式 调用 它 时 ， 该 函数 按键 id 的 升序 进行 排序 。 函 数 count () 返 回 查 询 结果 中 或 
整个 集合 中 的 文档 数量 : 


people.count() 


























今 4 

people.find({"dob": "1957-12-24"}).count() 
>» 1 

people.find().sort("dob") 


今 [{'empname': 'Anon I. Muss', '_id': 0bjectId('5691a9900f759d05092d311d ' )}， 
> {'empname': 'Abe Lincoln', 'dob': '1809-02-12', 
> '_id': ObjectId('5691a9900f759d05092d311c')}, 
{'empname': 'John Smith', 'dob': '1957-12-24', 
> '_id': ObjectId('5691a8720f759d05092d311b')}, 
{'empname': 'Jane Doe', 'dob': '1964-05-16', '_id': 'XVT162'}] 





函数 delete_one (doc) 和 delete_many(docs) 从 集合 中 删除 字典 doc 所 标识 的 一 个 或 多 个 
文档 。 如 果 要 在 删除 所 有 文档 的 同时 保留 集合 ， 需 使 用 空 字 上 典 作 为 参数 调用 函数 
delete many({}): 


result = people.delete many({"dob" : "1957-12-24"}) 
result.deleted count 
1 

CouchDB 


CouchDB 是 另外 一 个 流行 的 NoSQL 数 据 库 。 与 MongoDB 不 同 ，CouchDB 更 侧重 于 可 用 
性 而 非 一 致 性 。 对 于 复制 的 CouchDB 数 据 库 ( 在 多 台 计 算 机 上 运行 )， 所 有 用 户 都 可 以 使 用 
它 ， 但 却 不 能 保证 不 同 的 用 户 得 到 的 文档 是 相同 的 。 而 对 于 复制 的 MongoDB ， 用 户 得 到 的 
一 定 是 完全 相同 的 文档 , 但 是 某 些 用 户 可 能 会 无 法 使 用 数据 库 。 如 果实 际 使 用 中 不 复制 数据 
库 ， 那 究竟 是 采用 CouchDB 还 是 MongoDB ， 就 完全 取决 于 个 人 喜好 了 。 
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轮 到 你 了 


数据 库 管理 是 一 个 重要 的 科学 领域 , 它 的 博大 精深 远 远 超出 了 本 书 的 范围 。 仅 阅读 本 章 无 法 
使 你 成 为 一 名 经 验 丰 富 的 数据 库 管 理 员 或 全 能 的 数据 库 程 序 员 。 不 过 至 少 你 现在 已 经 能 创建 一 两 
个 表 ，, 将 数据 存储 到 表 中 ， 并 在 必要 时 恢复 数据 ， 而 且 你 还 知道 了 两 种 实现 方法 : 使 用 SQL 和 不 
使 用 SQL。 

口 MySQL 文 件 索引 器 * 

编写 一 个 Python 程序 ， 对 于 给 定 文件 中 的 每 个 单词 ， 记 录 如 下 信息 到 MySQL 数 据 库 中 : 
单词 本 身 (不 是 词 干 ! )、 单 词 在 文件 中 的 序数 (从 1 开始 )， 以 及 单词 的 词性 标记 。 使 用 
NLTK wordPunct -Tokenizer (参考 第 16 单 元 第 2 小 节 ) 来 识别 单词 。 假设 这 些 单词 比较 
短 ， 数 据 类 型 可 以 使 用 MySQL 的 TINYTEXT。 设 计数 据 库 模式 ， 创 建 所 有 必需 的 表 ， 并 在 
正式 开始 编写 Python 代码 之 前 ， 通 过 命令 行 来 试用 一 下 设计 出 来 的 表 。 

口 MySQL 到 MongoDB 的 转换 器 ** 


MySQL 语 句 DESCRIBE tabtLe_name 能 给 出 表 中 所 有 列 的 名 称 、 数 据 类 型 、 约 束 、 默 认 值 
等 。 编 写 一 个 Python 程序 ,将 所 有 数据 从 用 户 指 定 的 一 个 MySQL 表 中 转移 到 一 个 MongoDB 
文档 。 要 求 程序 不 能 修改 时 间 戳 。 
















































































还 没有 获得 数据 就 进行 推理 ， 这 是 个 致命 的 错误 。 
一 一 英国 作家 Arthur Conan Doyle 脏 士 
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各 种 文本 文档 是 原始 数据 的 主要 来 源 , 而 这 些 文本 的 格式 通常 以 数值 为 主 。 例如 Excel/ 和 CSV 
电子 表格 ， 尤 其 是 数据 库 表 ， 它 们 可 能 包含 数 百 万 或 数 十 亿 的 数值 记录 。Python 核 心 无 疑 是 一 款 
优秀 的 文本 处 理工 具 ， 但 有 时 候 它 的 数值 运算 性 能 却 不 尽 如 人 意 ，numpy 模 块 就 是 为 了 弥补 这 方 
面 的 缺陷 而 诞生 的 。 

NumPy (Numeric Python， 以 numpy 导 入 ) 是 一 系列 高 效 的 、 可 并 行 的 、 执 行 高 性 能 数值 运 
算 的 函数 的 接口 。numpy 模 块 提供 了 一 种 新 的 Python 数据 结构 一 一 数组 ( array )， 以 及 特定 于 该 结 
构 的 函数 工具 箱 。 该 模块 还 支持 随机 数 、 数 据 聚 合 、 线 性 代数 和 傅 里 叶 变换 等 非常 实用 的 数值 计 
算 工 具 。 



































仙境 之 桥 
如 果 程 序 需要 访问 大 量 的 数值 数据 (例如 TB 量 级 ,其 至 更 大 ), 那 就 一 定 会 用 到 h5py 
A 模块 "。 该 模块 是 HDF5 二 进 制 数 据 格 式 的 入 口 ， 可 以 与 许多 第 三 方 软件 ( 比如 IDL 





和 MATLAB ) 配合 使 用 。h5py 模 仿 了 大 家 所 熟悉 的 numpy 和 Python 的 一 些 机 制 ， 例 
如 数组 和 字典 。 只 要 学 会 了 numpy ,就 能 很 自然 地 运用 h5py, 因此 本 书 不 再 介绍 h5py 
的 相关 内 容 。 


在 本 章 中 ， 你 将 学 习 如 何 创建 不 同形 状 的 numpy 数 组 ， 基 于 不 同 的 源 创建 numpy 数 组 ， 数 组 
的 重 排 和 切片 操作 ,添加 数组 索引 ， 以 及 对 某 些 或 所 有 数组 元 素 进行 算术 运算 、 逻 辑 运 算 和 聚合 
运算 。 





QD www.hspyorg 
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第 21 单元 
创建 数组 





numpy 数 组 比 原生 的 Python 列表 更 为 紧凑 和 高 效 ， 尤 其 是 在 多 维 的 情况 下 。 但 与 列表 不 同 的 
是 ,数组 的 语法 要 求 更 为 严格 : 数组 必须 是 同 构 的 。 这 意味 着 数组 项 不 能 混合 使 用 不 同 的 数据 类 
型 ， 而 且 不 能 对 不 同 数据 类 型 的 数组 项 进行 匹配 操作 。 

创建 numpy 数 组 的 方法 很 多 。 可 以 使 用 函数 array() ， 基 于 类 数组 ( array-like ) 数据 创建 数 
组 。 所 谓 的 类 数组 数据 可 以 是 列表 、 元 组 或 另 一 个 数组 。numpy 基 于 数据 本 身 推断 出 数组 元 素 的 
类 型 ， 当 然 ， 你 也 可 以 给 array() 传 递 确定 的 dtype 参 数 。numpy 支 持 的 数据 类 型 接近 二 十 种 ， 
例如 bool 、int64、uint64、float64 和 <U32 (针对 Unicode 字 符 串 )。 


为 获得 较 高 的 效率 ，numpy 在 创建 一 个 数组 时 ， 不 会 将 数据 从 源 复制 到 新 数组 ， 而 是 建立 起 
数据 间 的 连接 。 也 就 是 说 ， 在 默认 情况 下 ，numpy 数 组 相当 于 是 其 底层 数据 的 视图 ， 而 不 是 其 副 
本 。 如 果 底 层 数据 对 象 发 生 改 变 ， 则 相应 的 数组 数据 也 会 随 之 改变 。 如 果 你 不 喜欢 这 种 方式 (这 
是 默认 的 处 理 方式 ， 除 非 复制 的 数据 量 过 大 )， 可 以 给 构造 函数 传递 copy=True 。 















































列表 即 数组 ， 数 组 亦 是 数组 
实际 上 ，Python 的 “列表 ”(list ) 是 以 数组 的 方式 实现 的 ， 而 并 非 列 表 的 方式 "， 这 
与 “列表 ”( list ) 的 字面 含义 并 不 一 致 。 由 于 未 使 用 前 向 指针 ， 所 以 Python 并 没有 
给 列表 预 留 前 向 指针 的 存储 空间 。Python 的 大 型 列表 只 比 “ 真 正 的 ”numpy 数 组 多 





使 用 约 13% 的 存储 空间 ， 但 对 于 一 些 简单 的 内 置 操作 ， 比 如 sum() ， 使 用 列表 则 要 
比 数组 快 五 到 十 倍 。 因 此 在 使 用 numpy 之 前 ， 应 该 问 问 自己 是 否 真 的 需要 用 到 茶 些 
numpy 特 有 的 功能 ! 


接 下 来 ， 我 们 来 创建 第 一 个 数组 一 一 前 10 个 正 整 数组 成 的 简单 数组 : 


import numpy as np 
numbers = np.array(range(1, 11), copy=True) 





今 array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) 


函数 ones() 、zeros() 和 empty() 分 别 构造 全 1 数组 、 全 零 数 组 和 尚未 初始 化 的 数组 。 这 些 
函数 必须 有 数组 的 形状 参数 ， 该 参数 用 一 个 与 数组 的 维度 相同 的 列表 或 元 组 来 表征 。 


ones = np.ones([2, 4], dtype=np.float64) 








今 array([[ 1., 1., 1., 1.], 








@ 这 里 的 列表 实现 方式 可 以 理解 为 链表 ( linked list )。 一 一 译 者 注 
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今 [和 


zeros = np.zeros([2, 4], dtype=np.float64) 


V 


array([[ 90., 0., 9., I 
今 [0.，0.，0.，0.]]) 


empty = np.empty([2, 4], dtype=np.float64) 
# 用 这 种 方式 创建 的 数组 ， 其 元 素 值 不 一 定 为 零 ! 


今 array([[ 0., 0., 0., 0 
今 [ 0., 0., 0., 0 


numpy 使 用 数组 的 ndim、shape 和 dtype 属 性 分 别 存储 数组 的 维 数 、 形 状 和 数据 类 型 。 
ones.shape # 只 要 没有 经 过 变形 (reshape) ,该 属性 给 出 的 就 是 数组 的 原始 形状 

今 (2, 4) 
numbers.ndim # 等 价 于 Len(numbers.shape) 

=> 1 


zeros.dtype 





今 dtype('float64') 


函数 eye(N，M=None，k=0，dtype=np,fLoat) 用 于 构造 一 个 NxM 的 眼 形 单位 矩阵 ， 其 第 K 
对 角 线 上 的 值 为 1， 其 他 地 方 的 值 为 零 。 当 k 为 正 数 时 ,对 应 的 对 角 线 位 于 主 对 角 线 上 方 的 第 条 。 
M 为 None ( 默认 值 ) 等 价 于 M=N。 


eye = np.eye(3, k=1) 








今 array([[ 0.，1.，0.]， 
=>» be Qnr 0 als 
[ 9., 0., 0.]]) 
当 需 要 将 几 个 矩阵 相 乘 时 ， 可 以 使 用 单位 矩阵 作为 乘法 链 累 积 器 中 的 初始 值 。 
除了 经 典 的 内 置 函 数 range() 外 , numpy 有 其 独 有 的 、 更 高 效 的 生成 等 间隔 数值 数组 的 方式 : 
函数 arange([start,] stop [, step,], dtype=None)。 





np_numbers = np.arange(2, 5, 0.25) 


今 array([ 2. ,2.25, 2.5 ,2.75, 3. , 3.25, 3.5 ，3.75，4. ， 
> 4.25, 4.5 ，4.75]) 


和 range() 函数 一 样 ，stop 的 值 可 以 小 于 start， 但 必须 保证 step 为 负数 且 数 组 中 的 数值 按 
顺序 减 小 。 


numpy 会 在 创建 数组 时 记录 每 一 项 的 数据 类 型 ， 不 过 该 数据 类 型 并 非 不 可 变 的 。 可 在 数组 创 
建 后 ， 调 用 函数 astype(dtype，casting ="unsafe"，copy=True) 来 改变 它 。 对 于 类 型 缩小 
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的 情况 (将 较 抽 象 的 数据 类 型 转换 为 更 具体 的 数据 类 型 )， 可 能 会 丢失 一 些 信 息 。 这 并 非 numpy 
特有 的 ， 任 何 缩小 变换 都 可 能 会 丢失 信息 。 


np_inumbers = np_numbers.astype(np.int) 








今 array([2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4]) 
大 多 数 numpy 操 作 ( 例如 第 22 单 元 讨论 的 转 置 操作 ) 返回 的 是 一 个 视图 ， 而 非 原始 数组 的 副 
本 。 为 了 保留 原始 数据 ， 可 使 用 copy () 函数 创建 现 有 数组 的 副本 。 这 样 一 来 ， 对 原始 数组 的 任 
何 更 改 都 不 会 影响 到 副本 。 但 如 果 数 组 较为 庞大 , 比如 有 十 亿 个 数组 项 , 那 就 不 要 轻易 进行 复制 。 
np_inumbers_copy = np_inumbers.copy() 


现在 ， 让 我 们 向 更 加 高 级 的 操作 迈进 。 








第 22 单元 
转 置 和 重 排 


numpy 数 组 的 发 明 具 有 里 程 碑 式 的 意义 。 借 助 numpy 可 以 很 容易 地 改变 数组 的 形状 和 方向 ， 
我 们 再 也 不 用 像 “ 瞻 猫 蹄 到 死 耗子 ”那样 看 运气 了 。 下 面 我 们 用 几 个 标准 普尔 〈S&P ) 股票 代码 
组 成 一 个 一 维 数组 ， 然 后 用 所 有 可 能 的 方式 改变 它 的 形状 : 


# 几 个 标准 普尔 (S&P) 股票 代码 
sap = np.array(["MMM", "ABT", "ABBV", "ACN", "ACE", "ATVI", "ADBE", "ADT"]) 

















今 array('MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ATVI', 'ADBE', 'ADT'], 
今 dtype= '<U4 ' ) 


函数 reshape(d0，d1，...) 可 以 改变 现 有 数组 的 形状 ， 其 参数 定义 了 新 的 维度 。 形 状 参数 
的 维度 必须 维持 不 变 ， 这 是 一 条 在 numpy 中 普遍 成 立 的 法 则 。 


sap2d = sap.reshape(2, 4) 





> array([['MMM', 'ABT', 'ABBV', 'ACN'], 
= ['ACE', 'ATVI', 'ADBE', 'ADT']], 
今 dtype='<U4 ' ) 


sap3d = sap.reshape(2, 2, 2) 


今 array([[['MMM', 'ABT'], 
>» ['ABBV', 'ACN']], 


[['ACE', 'ATVI'], 
>» ['ADBE' , 'ADT']]], 
a dtype='<U4') 
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你 甚至 不 需要 调用 函数 ， 就 能 实现 数组 的 转 置 : 属性 T 的 值 就 是 数组 的 转 置 视图 ( 对 于 一 维 
数组 ，data.T==data; 对 于 二 维 数组 ， 转 置 运算 将 交换 矩阵 的 行 和 列 )。 

















sap2d.T 
今 array([['MMM', 'ACE'], 
~» ['ABT', 'ATVI'], 
今 ['ABBV', "ADBE' ] ， 
> ['ACN', 'ADT']], 
> dtype='<U4') 









































本 质 上 ， 属 性 T 是 通过 重新 标记 十 字 基 准 线 来 显示 矩阵 的 ， 具 体 方法 如 下 : 轴 数 为 0 的 (“ 垂 
直 ”) 变 轴 数 为 1 ( “水 平 ” )， 反 之 亦 然 。 函 数 swapaxes() 是 属性 T 的 一 个 更 通用 的 版 本 。 它 以 任 
意 两 个 轴 作 为 参数 ， 通 过 交换 二 者 来 实现 多 维 数组 的 转 置 。 自 然 地 ， 传 递 二 维 数组 的 轴 0 和 和 轴 1 
也 可 以 转 置 数组 ， 就 像 使 用 属性 T 一 样 ， 这 是 数组 转 置 的 一 种 简单 情况 。 


sap3d.swapaxes (1, 2) 









































> array([[['MMM', 'ABBV'], 

> ['ABT', 'ACN']], 

今 

>» [['ACE', 'ADBE'], 

S» ['ATVI', 'ADT']]], 

今 dtype="'<U4') 

numpy 还 有 一 个 实现 转 置 的 函数 ， 即 transpose() ， 它 的 通用 性 甚至 比 swapaxes () 还 高 ( 尽 

管 该 函数 名 的 含义 与 属性 T 相 似 , 但 二 者 实际 上 是 不 同 的 方法 ) transpose() 根 据 多 维 数组 的 参 
数 ( 该 参数 必须 是 元 组 ) 来 排列 多 维 数组 的 部 分 或 所 有 轴 。 在 下 面 的 示例 中 , 使 用 ranspose() 
保持 第 一 个 轴 “垂直 ” ， 同时 交换 另外 两 个 轴 。 


sap3d.transpose((0, 2, 1)) 



































今 array([[['MMM', 'ABBV'], 


-> ['ABT', 'ACN']], 
> [['ACE', 'ADBE'], 
> ['ATVI', "ADT']]]， 
》 dtype='<U4') 


这 个 结果 恰好 与 swapaxes (1,2) 的 结果 相同 ! 


第 23 单元 
索引 和 切片 


numpy 数 组 支持 同 Python 列 表 一 致 的 索引 [i] 和 切片 [i:j] 操 作 。 此 外 ， 数组 还 能 实现 布尔 索 
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引 : 可 以 使 用 布尔 值 数组 作为 索引 , 其 结果 是 原始 数组 中 布尔 索引 为 True 的 项 构成 的 数组 。 通 常 ， 
布尔 数组 是 广播 的 结果 。 布 尔 索引 既 可 以 在 右 侧 〈 用 于 选择 )， 也 可 以 在 左 侧 (用 于 分 配 )。 














假设 我 们 从 数据 提供 者 处 得 知 , 脏 数据 集中 的 所 有 数据 都 是 非 负 数 。 这 就 意味 着 任何 负数 都 

















淋 
洗 oO 

















真实 值 ， 而 是 错误 值 ， 必 须 将 其 替换 为 更 有 意义 的 数 〈 比如 零 )， 这 样 的 操作 被 称 为 数据 清 
由 此 可 见 ， 要 清除 脏 数 据 ， 首 先 需 要 找 出 有 问题 的 值 ， 然 后 运用 合理 的 替代 方式 蔡 换 它们 。 


dirty = np.array([9, 4, 1, -0.01, -0.02, -0.001]) 
whos dirty = dirty < 0 # 这 是 一 个 布尔 数组 ， 可 以 作为 布尔 索引 来 使 用 








array([False, False, False, True, True, Truel], dtype=bool) 
dirty[whos dirty] = 0 # 将 所 有 的 负 值 设 置 为 0 
array([9, 4, 1, 0, 0909, 0]) 


可 以 将 多 个 布尔 表达 式 与 以 下 运算 符 组 合 使 用 : | ( 逻辑 或 )、& (逻辑 与 ) 以 及 - ( 逻辑 非 )。 


如 果 想 知道 以 下 列表 中 哪些 项 目 介 于 -0.5 和 0.5 之 间 ， 直 接 “ 问 ”numpy 吧 ! 


~» 


>» 





linear = np.arange(-1, 1.1, 0.2) 
(linear <= 0.5) & (linear >= -0.5) 


array([False, False, False, True, True, True, True, True, False, 
False, False], dtype=bool) 


两 种 布尔 运算 





关系 运算 符 (例如 < 和 == ) 的 优先 级 低 于 位 运算 符 &、| 和 !， 它 们 是 作用 在 numpy 


数组 上 的 “布尔 ”运算 符 。 这 常常 令 人 感到 困惑 ， 因 为 “正常 的 ”Python 布尔 运算 


符 (or 、and 和 not ) 的 优先 级 是 比 关系 运算 符 还 低 的 。 为 了 确保 numpy 数 组 的 布 
尔 运 算 能 首先 运行 ， 必 须 将 其 包含 在 括号 中 。 




















numpy 数 组 的 另 一 个 很 酷 的 特性 是 “智能 ”索引 和 “智能 ”切片 ， 其 中 索引 不 是 一 个 标量 ， 
而 是 一 个 数组 或 索引 列表 。 其 结果 是 索引 对 应 的 项 组 成 的 数组 。 下 面 我 们 从 之 前 建立 的 S&P 列 表 
中 选 出 第 二 个 、 第 三 个 和 最 后 一 个 股票 代码 ( 这 就 是 所 谓 的 “智能 ”索引 )。 











sap[[1, 2, -1]] 


array(['ABT', 'BBV', 'ADT'], 
dtype='<U4 ' ) 


有 时 候 你 可 能 会 想 : 为 什么 不 从 重 构 的 数组 中 提取 中 间 列 的 所 有 行 呢 ? 〈 这 就 是 所 谓 的 “ 





a] 





”切片 。 ) 有 如 下 两 种 实现 方法 : 


sap2d[:, [1]] 


array([['ABT'], 
['ATVI']], 
dtype='<U4 ' ) 
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sap2d[:，1] 


今 array(['ABT'， 'ATVI'], 
今 dtype= '<U4 ' ) 

Python 针对 一 个 问题 会 提供 多 种 相似 的 工具 ， 这 是 极 好 的 ， 但 是 一 定 要 小 心 不 要 选 错 工 具 。 
仔细 对 比 前 面 挑选 出 的 两 个 数组 可 以 发 现 , 第 一 个 是 二 维和 矩阵 ， 而 第 二 个 是 一 维 数组 。 结 合 你 的 
需求 ,肯定 只 能 选择 其 中 之 一 。 因 此 ， 在 刚 开始 使 用 Python 时 ， 有 必要 检查 一 下 结果 ， 确 保 它 真 
的 就 是 你 想 要 的 。 




















numpy 对 矢量 化 算术 运算 的 支持 非常 友好 ， 只 需 保证 参与 运算 的 数组 具有 相同 的 形状 。 如 果 
想 在 不 使 用 numpy 的 前 提 下 实现 两 个 数组 元 素 相 加 ， 就 必须 使 用 for 循 环 或 列表 推导 式 ， 而 如 果 
使 用 numpy， 则 只 需 直接 将 它们 相 加 即 可 : 














np.arange(4) 
np.arange(1, 5) 
b 


a = 
b = 
a 十 
今 array([1, 3, 5, 7]) 

数组 上 的 矢量 化 操作 又 被 称 为 广播 。 如 果 参 与 运算 的 两 个 数组 维度 相等 (如 上 所 述 ) 或 其 中 
一 个 是 标量 ( 如 下 所 示 )， 就 可 以 将 运算 在 两 个 维度 “广播 ”: 


a*5 











今 array([90, 5, 10, 15]) 


累计 还 是 相 乘 ? 
C9 在 Python 和 numpy 中 » 星 号 运算 符 ( 本 ) 具有 不 同 的 行为 。 在 “核心 ” Python 中 9 表 





达 式 Seqk5 将 列表 seq 复 制 五 次 ,而 同样 的 numpy 表 达 式 则 将 数组 seq 的 每 个 元 素 乘 
JS 


你 可 以 把 数组 和 标量 混合 使 用 ,并 配 上 不 同 的 算术 运算 。 下 面 让 我 们 创建 一 个 对 角 和 矩阵 , 并 
添加 一 些小 的 (但 不 是 随机 的 ) 噪声 : 


noise = np.eye(4) + 0.01 * np.ones((4, )) 


) 0.01]， 


今 array([[ 1 ，0 
1 ， 0.01], 


[ 01 :01, 0.01 
今 [ 0.01，1.01，0.01 
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[ 0.01, 0.01, 1.01, 
[ 0.01, 0.01, 0.01, 





如 何 得 到 一 些小 的 随机 噪声 呢 ? 我 们 将 在 第 47 单 元 详细 讨论 随机 数 生 成 器 , 这 里 只 给 出 一 个 
例子 : 


noise = np.eye(4) + 0.01 * np.random.random([4, 4]) 
np.round(noise, 2) 

array([[ 1.01, 0. ， 0. 

[ 0.01，1.01，0， , 0.01], 
[ 9. 0. 0 

[ 9. 0. 1 


使 用 通用 函数 round( ) 对 抢 阵 元 素 执行 四 舍 五 人 操作 一 一 一 个 函数 作用 在 所 有 的 数组 元 素 
上 1! 第 25 单 元 “揭秘 通用 函数 ”可 以 帮助 你 真正 掌握 通用 函数 (ufunc )。 
顺便 提 一 下 ， 如 果 多 次 运行 前 面 的 示例 ， 会 得 到 不 同 的 结果 。 这 是 因为 随机 数 是 随机 的 ! 


我 们 将 在 第 30 单 元 “生成 合成 正弦 波 ” 中 详细 讨论 真实 世界 的 、 噪 声 的， 以 及 正弦 波形 式 的 
言 号 生成 ， 并 使 用 高 级 的 图 形 化 方式 进行 研究 。 












































第 25 单元 
揭秘 通用 函数 








秋 量 化 通用 也 数 是 对 应 广播 功能 的 函数 。 只 需要 一 次 函数 调用 , 就 可 以 将 通用 也 数 应 用 于 所 
有 数组 项 。numpy 提 供 了 很 多 通用 函数 ， 举 例如 下 。 
口 算术 运算 : add() 、muLtipty() 、negative() 、exp()、Log() 、sqrt() 
口 三 角 函 数 : sin()、cos()、hypot() 
口 按 位 运算 : bitwise and() 、Left_ shift() 
口 关系 和 逻辑 运算 : Less() 、LogicatL not()、equal() 
口 maximum() 和 minimum() 
口 使 用 浮 点 数 的 函数 : isinf()、isfinite()、floor()、isnan() 


假设 一 个 名 为 stocks 的 一 维 数组 中 记录 了 sap 中 8 个 代码 对 应 的 股票 在 2016 年 1 月 10 日 的 周 
末 前 后 的 价格 。 


Stocks 









































> array([ 140.49, 0.97， 40.68, 41.53, 55.7 ， 57.21, 98.2 ， 
> 99.19, 109.96, 111.47, 35.71, 36.27， 87.85, 89.11, 
30.22， 30.91]) 
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现在 我 们 想 知道 哪些 股票 的 价格 在 周末 下 跌 了 。 首先, 按照 股票 代码 对 股价 进行 分 组 ,并 将 
较 新 的 报价 放 在 较 早 的 报价 之 后 。 其 实现 方法 是 把 原始 数组 重 排 成 2x8 的 矩阵 : 


stocks = stocks.reshape(8, 2).T 





今 array([[ 140.49, 40.68, 55.7 ， 98.2 ， 109.96, 35.71, 87.85, 
今 30.22]， 

今 [ 0.97， 41.53, 57.21, 99.19, 111.47, 36.27, 89.11, 
》 30.91]]) 


接 下 来 使 用 greater( ) 函数 逐 列 比较 数组 的 两 行 数据 , 根据 所 得 到 的 布尔 索引 就 能 找 出 感 兴 
趣 的 股票 代码 : 


fall = np.greater(stocks[0], stocks[1]) 





今 array([True, False, False, False, False, False, False, False], dtype=bool) 
sap[fall] 


今 array(['MMM'], 
~> dtype='<U4') 














顺便 介绍 一 下 ，MMM 是 一 家 使 用 “ 庞 氏 骗局 ”的 俄罗斯 公司 ， 它 从 未 在 任何 证 券 交 易 所 上 
市 。 难 怪 它 的 股价 正在 下 跌 。 


除了 “传统 ”数字 之 外 ，numpy 全 面 支持 IEEE 754 浮 点 标准 ， 并 提供 正 无 穷 大 ( inf ) 和 非 
数字 ( nan ) 两 种 符号 。 如 果 没 有 使 用 numpy ， 则 这 两 个 符号 分 别 是 float("inf") 和 
float ("nan")。 按照 数据 科学 领域 约定 的 做 法 , 本 书 使 用 nan 作 为 缺失 数据 的 占 位 符 ( 缺失 数据 
的 问题 在 第 1 单元 中 介绍 过 )。 
通用 子 数 isnan() 是 一 个 极 好 用 的 nan 的 定位 工具 。 实 际 上 ， 对 于 下 面 的 例子 ， 用 零 值 蔡 换 
缺失 的 数据 铠 怕 是 一 个 很 糟糕 的 做 法 (我 们 之 前 在 第 23 单 元 就 是 这 么 做 的 )， 所 以 下 面 我 们 用 
isnan() 重 做 一 次 : 


人 ## 假定 MMM 股 票 的 新 报价 丢失 了 
stocks[1, 0] = np.nan 
np.isnan(stocks) 


















































今 array([[False, False, False, False, False, False, False, False], 
今 [ True, False, False, False, False, False, False, False]], dtype=bool) 


# 修复 ;没有 比 这 更 糟 的 做 法 了 


stocks[np.isnan(stocks)] = 0 
今 array([[ 140.49, 40.68, 55.7 ， 98.2 ， 109.96, 35.71， 87.85， 
党 30.22], 
今 [ 0.， 41.53， 57.21， 99.19， 111.47, 36.27， 89.11， 
今 30.91]]) 








通用 函数 扩展 了 Python 的 算术 函数 和 关系 运算 符 的 功能 ,增加 了 更 多 的 可 能 性 ,这 种 方式 给 
出 的 条 件 函 数 可 以 说 是 Python 逻辑 运算 符 的 加 强 版 。 
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第 26 单元 
理解 条 件 函 数 





函数 where(c，a,，b) 是 numpy 风 格 的 if-etLse 三 元 运算 符 "。 它 通过 一 个 布尔 数组 (c ) 和 两 


个 其 他 数组 (a 和 b ) 得 出 数组 d， 数 组 qd 满足: 如 果 c[i] 为 真 ， 则 d[i]=a[i] ， 否则 d[i]=b[i]。 
三 个 数组 必须 具有 相同 的 形状 。 

如 果 数 组 中 任意 元 素 为 真 , 则 函数 any() 返 回 True。 如 果 数 组 中 所 有 元 素 为 真 , 则 函数 all() 
返回 True。 

函数 nonzero() 返 回 所 有 非 零 元 素 的 索引 。 

我 们 在 第 25 单 元 用 数组 sap 中 记录 了 一 些 标准 普尔 股票 的 价格 。 现 在 要 找 出 哪 支 股票 的 变化 
幅度 较 大 ( 每 股 超过 1.00 美 元 )， 我 们 将 幅度 变化 “小 ”的 用 零 替 换 ， 然 后 找 出 非 零 元 素 ， 将 它 
们 的 索引 作为 “智能 索引 ”作用 在 股票 符号 的 数组 上 : 


changes = np.where(np.abs(stocks[1] - stocks[0]) > 1.00, 
stocks[1] - stocks[0], 0) 


















































今 array([-139.52, 0. ， 1.51, 0.， 1.51, 0.， 1.26, 0. 1]) 
sap[np.nonzero(changes)] 


今 array(['MMM', 'ABBV', "ACE'， 'ADBE'], 
> dtype='<U4 ' ) 


单独 使 用 布尔 索引 也 可 以 得 到 相同 的 结果 : 


sap[np.abs(stocks[1] - stocks[0]) > 1.00] 








> array(['MMM', 'ABBV', 'ACE', 'ADBE'], 
dtype="'<U4') 


但 是 这 样 做 就 少 了 很 多 乐趣 ! 

















第 27 单元 
数组 的 聚合 与 排序 





数据 排序 和 聚合 在 数据 科学 中 处 于 核心 地 位 。 数 据 科学 研究 通常 从 大 量 的 数据 开始 , 逐渐 通 




















Q@ if-else 条 件 表达 式 是 从 Python 2.5 开 始 引入 的 写法 。X if C else Y: 只 有 当 条 件 C 为 真 时 ，X 才 会 被 执行 ， 只 有 


当 C 为 假 时 ，Y 才 会 被 执行 。 具 体 的 讨论 见 Python 官 网 : https:/www.python.org/dev/peps/pep-0308/。 一 一 译 者 注 


























邮 


上 绘制 费用 和 税 费 : 5 
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过 组 合 、 平 均 、 积 累 等 方式 来 提炼 数据 ， 直 到 数据 有 望 被 分 解 为 一 个 小 型 的 、 易 于 呈现 和 解释 的 
集合 。numpy 模 块 提供 了 计算 numpy 数 组 的 各 种 聚集 量 的 函数 : mean() 、sum() 、std() (标准 方 
差 )、min() 和 max()。 


下 面 我 们 使 用 广播 、 聚 合 函数 、 通 用 函数 和 布尔 索引 的 组 合 〈 几乎 是 我 们 的 整套 工具 集 )， 
从 第 25 单 元 给 出 的 股票 中 ， 提 取出 股价 变化 超过 所 有 8 支 股票 平均 值 的 投资 组 合 : 


Sap[ np.abs(stocks[0] - stocks[1]) 
> np.mean(np.abs(stocks[0] - stocks[1]))] 








今 array(['MMM' ]， 
-=> dtype='<U4') 


说 实话 ， 其 实 不 应 该 把 股价 变化 大 于 零 和 小 于 零 的 混在 一 起 考虑 。 


函数 cumsum(x) 和 cump rod(x) 分 别 计算 累积 和 以 及 乘积 量 : cumsumi=2uxi 和 cumprodF=IIixi。 
可 以 将 它们 分 别 用 作 数 据 的 加 法 〈 简单 利息 支付 ) 和 乘法 ( 复 利 支付 ) 积分 器。( 注意 ， 如 果 数 
组 的 任意 元 素 为 0， 则 该 元 素 对 应 的 cumprod ( ) 元 素 及 其 后 续 所 有 元 素 都 等 于 0。) 


下 面 给 出 利率 为 3.75% 时 ， 近 30 年 来 的 简单 利息 和 复 利 的 对 比 一 一 只 需要 两 行 humpy 代 码 加 











interest.py 

# 仅 列 出 部 分 对 比 结果 

RATE = .0375 

TERM = 30 

simple = ( RATE * np.ones(TERM)).cumsum() 
compound = ((1 + RATE) * np.ones(TERM)).cumprod() - 1 


2.52 
-一 Compound 
-一 Simple 


2.0- 


Pm 
u 


Accrued Interest 
- 
o 


0.5- 


0.0” 


Year 


56 


第 5 章 使 用 表格 形式 的 数值 数据 








的 东西 啦 ! ”)。 在 生物 信息 学 领域 ， 人 1 


























sort () 函数 可 能 是 numpy 模 块 中 最 没意思 的 函数 。 它 只 是 将 数组 进行 排序 〈 覆盖 原始 数组 顺 
序 )， 并 返回 None。 如 果 原 始 数组 对 你 来 说 是 比较 宝贵 的 ,那么 在 排序 之 前 要 先 做 一 个 副本 。 





将 数组 用 作 集合 





第 28 单元 




















在 某 些 情况 下 ,数组 内 各 项 的 顺序 并 不 重要 , 重要 的 是 这 些 项 的 组 合 , 例如 判断 数组 中 是 否 
存在 某 个 特定 的 项 ， 或 者 数组 中 存在 什么 类 型 的 项 。 使 用 numpy 可 以 将 数组 当 作 数 学 中 的 集合 那 


样 进 行 处 理 。 











函数 unique(x) 返 回 x 中 所 有 唯一 元 素 组 成 的 数组 。 它 是 Counter 模 块 的 一 个 很 好 的 替代 品 
(关于 Counter 模 块 的 内 容 , 请 参考 第 7 单元 “使 用 计数 器 ” ), 但 它 并 未 真正 计算 元 素 出 现 的 次 数 。 








已 

















众所周知 , 数据 科学 几乎 使 生物 信息 学 成 了 最 好 的 学 科 ( 这 真是 自 切 片面 包 被 发 明 以 来 最 好 





门 使 月 











数据 科学 来 处 理 基 因 组 测序 ,也 就 是 确定 DNA 核 并 





酸 的 顺序 。 下面 让 我 们 做 一 些 类 似 于 在 生物 信息 学 中 做 的 工作 , 找 出 在 随机 DNA 片 段 中 存在 的 术 
彰 酸 种 类 : 


dna = "AGTCCGCGAATACAGGCTCGGT" 
dna as array = np.array(list(dna)) 


> array(['A', 'G'， 罗网 Cr a oi 'G'， 
'A' G6! 'G', “Cr 辆 由 oh 


dtype='<U1') 


np.unique(dna as array) 


8 array(['A', Ri eT 


dtype='<U1') 
想必 你 已 经 明白 了 ”。 


'C', 'G', 'A', AR, 'T', 'A', wes 
'G', 'G', TT ; 


函数 in1d (needle，haystack) 返 回 一 个 布尔 数组 ， 如 果 needle 的 元 素 在 haystack 中 ， 则 
返回 数组 的 对 应 位 置 元 素 为 True。 数 组 needLe 和 haystack 不 需要 具有 相同 的 形状 。 





np.inld(["MSFT", "MMM", "AAPL"], sap) 


> array([False, True, False], dtype=bool) 





函数 union1d() 和 intersect1d() 计算 两 个 一 维 数组 的 并 集 和 交集 ， 数 组 的 大 小 可 以 不 相 


























Q@ 切片 面包 意义 重大 ， 以 至 于 英语 中 出 现 了 这 样 的 表达 :“The best thing since sliced bread.” 一 一 译 者 注 














© www.genomenewsnetwork.org/resources/whats a_genome/Chp2_1.shtml 
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同 。 不 过 , 相信 你 会 更 愿意 使 用 Python 原生 的 集合 运算 符 & 和 | , 因为 二 者 的 运行 速度 大 约 是 numpy 
的 两 倍 ! 


第 29 单元 
数组 的 保存 和 读 取 


随 着 学 习 的 深入 , 你 以 后 可 能 不 会 单独 使 用 numpy , 而 是 把 它 作为 pandas( 第 6 章 ). networkx 
(第 7 章 ) 和 机 器 学 习 工 具 (第 10 章 ) 的 强大 后 端 。 通 常 的 做 法 是 ， 基 于 低级 的 数据 处 理工 具 提供 
的 数据 创建 numpy 数 组 ， 再 将 它们 提交 给 更 高 级 的 分 析 工 具 。 因 此 ， 你 未 必需 要 直接 保存 或 读 取 
numpy 数 组 。 


如 果 非 要 单独 使 用 numpy 也 是 可 以 的 , numpy 提 供 了 内 置 的 函数 , 能 够 将 数组 保存 到 .npy 文 件 
( 函数 save (file,arr) ), 并 从 .npy 文 件 中 读 取 以 前 保存 的 数组 ( 函数 Load (file) )。.npy 文 件 是 
二 进 制 格 式 的 ， 只 有 numpy 可 以 处 理 它们 。 


也 许 你 已 经 意识 到 ， 这 是 两 个 没什么 用 处 的 函数 ， 不 过 它们 还 是 非常 友好 的 : 传人 的 fite 
参数 可 以 是 打开 的 文件 句柄 或 字符 串 形式 的 文件 名 。 如 果 文 件 名 不 存在 .npy 扩 展 也 没关系 ， 函 数 
能 自动 添加 扩展 。 

# 一 种 愚蠢 的 数组 复制 方法 

np.save("sap.npy", sap) 

sap_copy = np.load("sap") 

男 一 对 函数 Loadtxt() 和 savetxt() 能 从 文本 文件 加 载 表 格 数据 ， 并 将 数组 保存 到 文本 文 
件 。numpy 会 自动 创建 文件 ， 而 且 必 要 时 可 以 将 其 自动 打开 。 如 果 文 件 名 以 .gz 结尾 ，numpy 甚 至 
可 以 自动 压缩 和 解压 文件 。 你 还 可 以 设 定 numpy 处 理 注 释 行 与 分 隔 符 的 方式 , 并 跳 过 不 需要 的 行 : 


arr = np.loadtxt(fname, comments="#", delimiter=None, skiprows=0, 
dtype=float) 










































































np.savetxt(fname, arr, comments="#", delimiter=" ", dtype=float) 
第 30 单元 
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现在 我 们 来 做 一 些 数据 科学 家 通常 不 会 做 的 事情 ， 打 动 那 些 不 使 用 numpy 的 朋友 : 生成 一 个 
合成 正弦 波 , 我 们 可 能 已 经 在 廉价 的 、 不 完美 的 , 以 及 哮 杂 的 仪器 中 收 到 过 小 量 的 这 种 周期 信和 号。 
这 样 的 信号 具体 是 从 何 处 获得 的 以 及 仪器 的 性 质 并 不 重要 。 产 生 这 类 信和 号 的 仪器 也 许 是 一 个 搬 在 
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电源 插座 上 的 电压 表 , 或 者 是 一 个 在 周 日 晚 放 在 草坪 上 而 直到 周 五 才 收 回 的 户外 数字 温度 计 , 其 
至 可 能 是 一 个 股票 市 场 价格 报价 器 。( 顺便 说 一 句 ， 合 成 周期 信号 不 仅 可 用 于 给 朋友 留 下 印象 ， 
还 可 用 于 测试 新 的 数字 信号 处 理 算法 。) 

生成 信号 的 代码 如 下 ， 其 中 高 亮 显示 的 部 分 就 是 使 用 numpy 的 代码 。 这 部 分 代码 见证 了 矢量 
化 的 魔法 : 创建 一 个 连续 整数 数组 ， 将 它们 转换 为 浮 点 数 ， 调 整 为 正确 的 周期 ， 取 正弦 ， 放 大 ， 
置换 ， 添 加 高 斯 噪声 ( 参见 第 45 单 元 )， 并 模拟 仪器 测量 得 到 的 信号 截断 效果 。 












































numpy_sinewave.py 

# 导入 所 有 优质 的 模块 

import numpy as np 

import matplotlib.pyplot as plt 
import matpLotLib 





# 定义 了 信号 、 噪 声 和 “仪器 ”属性 的 常量 

SIG AMPLITUDE = 10; SIG OFFSET = 2; SIG PERIOD = 100 
NOISE AMPLITUDE = 3 

N SAMPLES = 5 * SIG PERIOD 

INSTRUMENT RANGE = 9 


> # 创建 一 个 正弦 波 ， 并 加 入 随机 噪声 

times = np.arange(N SAMPLES).astype(float) 

signal = SIG AMPLITUDE * np.sin(2 * np.pi * times / SIG PERIO0D) + SIG OFFSET 
noise = NOISE AMPLITUDE * np.random.normal (size=N SAMPLES) 

signal += noise 


# 将 仪器 测量 范围 之 外 的 峰值 截断 
signal[signal > INSTRUMENT RANGE] = INSTRUMENT RANGE 
signal[signal < -INSTRUMENT RANGE] = -INSTRUMENT RANGE 


YYYYYYYY 


# 绘制 结果 

matplotlib,.style.use("ggplot") 

plt.plot(times, signal) 

plt.title("Synthetic sine wave signal") 

plt.xlabel ("Time") 

plt.ylabel("Signal + noise") 

plt.ylim(ymin = -SIG AMPLITUDE, ymax = SIG AMPLITUDE) 


# 保存 图 片 
plt.savefig("../images/signal.pdf") 


其 他 未 高 亮 显示 的 代码 使 用 Matplotlib 实 现 噪声 信号 的 可 视 化 。 
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Synthetic sine wave signal 


Signal + noise 
口 


1 1 1 1 
0 100 200 300 400 500 


全 | 


Matplotlib 作 为 numpy 的 姐妹 包 ， 是 第 8 章 “ 绘 图 ”的 重点 内 容 。 
轮 到 你 了 


希望 本 章 的 学 习 ， 已 使 你 确信 numpy 是 一 个 处 理 数 字 的 优秀 工具 箱 。 矢 量 和 和 矩阵 是 numpy 最 
重要 的 成 员 。numpy 提 供 矢量 化 的 算术 运算 、 逻 辑 运算 和 其 他 操作 ， 还 提供 用 于 数据 重 排 、 排 序 
和 聚合 的 功能 。 它 甚至 支持 用 nan 来 表示 一 个 非 数 的 值 。 你 现在 能 使 用 numpy 驾 驭 一 些 计算 密集 
型 的 项 目 了 吗 ? 

口 数组 微分 器 * 
函数 的 ) 部 分 和 近似 等 价 于 ( 函数 的 ) 积分 。 事 实 上 ， 微 积分 理论 就 把 积分 定义 为 无 穷 
0 ( 函数 的 ) 部 分 差 arriii-arri 近 似 等 价 于 ( 函数 的 ) 导数 。numpy 没 有 
提供 用 于 计算 数组 部 分 差 的 工具 。 请 编写 一 个 程序 ， 对 于 一 个 给 定 的 数组 arr， 计 算数 组 
项 的 部 分 差 。 在 本 练习 中 假设 数组 为 数值 数组 。 
口 HEI| 定 位 器 ** 

从 www.data.gov/education 下载 美国 高 等 教育 数据 集 的 CSV 文 件 。 编 写 一 个 程序 , 给 出 最 接 

近 整 个 数据 集 给 出 的 平均 经 纬度 的 十 个 高 等 教育 机 构 (HEI ) 的 地 理 位 置 。 计 算 距 离 时 ， 

以 度 为 单位 。 尽 量 使 用 numpy 进 行 数据 存储 和 处 理 。 请 注意 ，CSV 文 件 的 第 一 行 包 含 列 标 

题 ， 而 且 文件 中 的 某 些 字段 甚至 整个 记录 可 能 是 无 效 的 。 





























60 第 5 章 使 用 表格 形式 的 数值 数据 





口 状态 相似 性 计算 器 ** 
美国 人 口 普查 局 提供 各 州 之 间 人 口 流量 的 总 结 ( 从 www.census.gov/hhes/migration/data/ 
acs/state-to-state.html 下 载 最 新 的 XLS 文 件 ， 并 将 其 转换 为 CSV 格 式 一 一 在 Excel 或 
OpenOffice Calc 中 打开 ， 并 以 CSV 方 式 导 出 )。 编 写 一 个 程序 ， 给 出 在 人 口 迁 移 的 状态 上 
最 为 相似 的 十 对 州 。 如 果 超 过 Px/N 个 人 从 X 移 动 到 Y， 则 可 以 认为 X 和 Y 相 似 。 其 中 Pxy 是 
从 X 流 出 的 总 流量 ，N 是 州 和 地 区 的 总 数 ， 而 不 是 原始 区 域 本 身 。 尽 量 使 用 numpy 进 行 数 
据 存 储 和 处理。 每 个 相似 对 中 的 两 个 州 是 否 通常 都 位 于 相同 的 海岸 线 ? 


















































我 在 巴黎 艺术 画廊 见 到 了 全 世界 最 美的 画 。 
一 一 英国 化 学 家 和 发 明 家 Humphry Davy 
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数据 科学 家 往往 青睐 于 表格 数据 ( 数组 、 矢 量 、 和 窍 阵 )。 表 格 数 据 具 有 很 好 的 形式 ， 可 以 方 
便 地 访问 某 个 元 素 和 某 些 行 或 列 。 超 级 计算 机 和 许多 现代 高 端 个 人 电脑 支持 的 矢量 化 算术 运算 ， 
可 以 一 次 性 作用 在 多 个 甚至 所 有 表格 项 目 上 ( 第 24 单 元 给 出 了 这 种 运算 的 numpy 实 现 )。 但 是 ， 
numpy 无 法 将 数值 数据 本 身 与 数据 属性 ( 比如 列 名 、 行 名 和 索引 ) 相 绑 定 。 正 因为 缺乏 这 样 的 参 
照 物 ， 使 得 同时 使 用 多 个 numpy 数 组 非常 困难 。 


下 面 让 我 们 进入 pandas 的 世界 。 


pandas 模 块 的 初衷 是 为 了 给 Python 添加 series 和 frames 两 个 抽象 的 数据 结构 ， 它 们 其 实 是 
Python 的 竞争 对 手 、 最 早 的 数据 科学 语言 一 一 R 语 言 的 核心 。pandas 以 numpy 为 基础 ， 对 其 进行 
了 极 大 的 扩展 ， 并 重新 实现 了 部 分 功能 。 


pandas 的 frame 本 质 上 是 一 个 “智能 ”电子 表格 : 具有 标签 、 列 ( 变量 )、 行 (观测 记录 )， 
以 及 大 量 内 置 操 作 的 表 。( series 是 一 个 只 有 一 列 的 frame。) 表 的 数据 部 分 (单元 格 ) 以 numpy 数 
组 的 方式 实现 。 许 多 操作 ( 例如 数据 变形 和 聚合 ， 以 及 通用 函数 ) 也 与 numpy 是 类 似 的 。 通 过 行 
和 列 的 标签 ， 可 以 实现 对 行 和 列 方便 的 、 直 截 了 当 的 访问 。 此 外 ， 标 记 的 行 和 列 允 许 pandas 程 
序 员 (也 就 是 我 们 ) 通过 在 “垂直 ”( 堆 厂 ) 和 “水 平 ”( 并 排 ) 方向 上 以 合并 和 级 联 的 方式 来 组 
合 frame。 在 这 个 意义 上 ，frame 的 工作 方式 很 像 关系 数据 库 表 。( 请 参阅 第 4 章 ， 回 顾 关系 数据 库 
的 内 容 。) 

最 后 ，pandas 可 以 很 好 地 与 pypLot 集 成 在 一 起 。pyptLot 是 一 个 基于 Python 的 绘图 和 数据 可 


视 化 系统 ， 具 体内 容 将 在 第 41 单 元 介绍 。 坦 率 地 讲 ，pandas 具 备 开展 数据 科学 研究 所 需要 的 一 
切 。 当 然 ， 也 需要 一 些 其 他 工具 的 配合 。 


本 章 通 过 第 31 单 元 对 pandas 的 两 个 数据 容器 (Series 和 DataFrame ) 的 介绍 开启 pandas 的 
学 习 之 旅 。 
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第 31 单 元 
pandas 数据 结构 











pandas 模 块 为 已 经 具有 丰富 数据 结构 的 Python 增加 了 两 个 新 的 数据 容 需 : Series 和 
DataFrame。series 是 具有 标签 的 〈 也 就 是 具有 索引 的 ) 一 维 矢量 。frame 是 一 个 行 和 列 都 具有 标 
签 的 表格 ， 它 与 Excel 电 子 表 格 和 MySQL 表 格 并 无 不 同 。frame 的 每 一 列 都 是 一 个 series。 除 了 一 些 
特殊 情况 外 ，pandas 对 frame 和 series 的 处 理 方式 是 相似 的 。 


frame 和 series 不 是 简单 的 存储 容器 。 它 们 都 内 置 了 进行 各 种 数据 整理 操作 的 工具 ， 如 : 


口 单 级 和 分 级 索引 

口 处 理 缺 失 数 据 

口 对 整个 列 和 表 进 行 算术 和 布尔 运算 
口 数据 库 类 型 的 操作 ( 比如 合并 和 聚合 
口 绘制 各 个 列 和 整个 表格 

口 从 文件 读 取 数据 并 将 数据 写 入 文件 


frame 和 series 非 常 方 便 ， 当 你 在 处 理 一 维 或 二 维 表 格 数 据 时 ， 都 应 该 使 用 它们 。 
















































































series 


series 是 一 维 的 数据 矢量 。 和 numpy 数 组 一 样 ( 想 要 了 解 更 多 关于 数组 的 内 容 ， 请 参考 第 21 
单元 )，series 是 同 构 的 : series 的 所 有 数据 项 必须 是 相同 的 数据 类 型 。 


可 以 使 用 任意 序列 〈 比如 列表 、 元 组 或 数组 ) 创建 一 个 简单 的 series。 下 面 我 们 通过 一 组 美 
国 近期 通货 膨胀 的 数据 ， 来 展示 pandas 的 series。 首 先 需 要 说 明 的 是 ， 为 了 强调 数据 的 不 变性 ， 
我 使 用 了 一 个 元 组 来 表示 之 前 计算 好 的 通货 膨胀 数据 。 另 外 , 下面 的 例子 并 不 需要 经 济 学 或 财政 
学 方面 的 高 级 知识 ! 

import pandas as pd 

# 最 后 的 值 是 错误 的 ， 我 们 稍 后 再 修改 它 1 

infLation = pd.Series((2.2, 3.4, 2.8, 1.6, 2.3, 2.7, 3.4, 3.2, 2.8, 3.8, \ 
-0.4, 1.6, 3.2, 2.1, 1.5, 1.5)) 
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mb 上 oo co 有 


3， 
2. 
3， 
-0. 
今 11 1. 
3， 
2. 
1. 
1. 


5 
今 dtype: float64 


函数 Len() 是 Python 内 置 的 标准 通用 函数 ， 它 也 适用 于 series: 


len(inflation) 





今 16 


一 个 series， 两 个 series， 三 个 series……- 
series 这 个 单词 的 单数 形式 和 复数 形式 一 样 。 它 的 由 来 可 以 追溯 到 拉丁 语 serere， 其 
含义 是 加 入 或 连接 。 











一 个 简单 的 series， 比 如 刚刚 创建 的 infLation， 具 有 默认 的 整数 索引 : 第 一 项 的 标签 为 0， 
第 二 项 为 1， 以 此 类 推 。 一 个 series 的 values 属 性 包含 了 所 有 series 值 的 列表 ; index 属 性 指 的 是 
series 的 索引 (索引 是 男 一 种 pandas 数 据 类 型 ); index.vatues 属 性 指 的 是 所 有 索引 值 组 成 的 数 
组 。 


inflation.values 






































今 array([ 2 
> 3 


i 3 
.8, -0. 
inflation.index 


今 Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], 
> dtype="'int64') 


inflation.index.values 
今 array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]) 
注意 pandas 是 如 何 避 免 重 复 造 轮子 的 ， 它 使 用 numpy 数 组 作为 其 底层 存储 工具 ! 


所 有 这 些 数组 ( 以 及 它们 所 代表 的 series 属 性 ) 都 是 可 变 的 ， 这 一 点 有 些 令 人 人 惊讶。 更 改 
values、index 和 index.values 实 际 上 会 改变 series 的 值 和 索引 。 我 们 用 这 个 事实 来 修改 通货 脱 
上 胀 数据 中 的 最 后 一 项 ， 把 它 改 成 一 个 错误 的 值 : 


inflation.values[-1] = 1.6 


关于 series 存 在 这 样 一 个 问题 : 它 看 起 来 像 一 个 数组 ， 并 且 它 的 行为 也 和 数组 一 样 ， 于 是 根 
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据 “ 晃 子 测试 ”“" 的 原理 ，series 就 是 数组 。 例如， 对 于 上 面 的 例子 ,我 们 很 难说 明 series 的 第 一 项 
对 应 的 是 哪 一 年 的 通胀 数据 。 当 然 ， 你 可 以 创建 另 一 个 series 来 保存 年 份 ， 并 保证 两 个 series 始 终 
在 一 起 使 用 , 但 是 我 不 得 不 提醒 读者 ， 当 我 还 在 读 高 中 的 时 候 , 就 有 人 告诫 我 , 像 这 样 并 列 地 使 


























用 series 终 将 导致 灾难 。 所 以 ， 让 我 们 用 一 个 自 定 义 的 索引 来 创建 series， 索 引 通 过 字典 的 方式 传 




















递 给 Series 的 构造 函数 。 字 典 键 作为 series 的 索引 ， 索 引 是 series 中 不 可 分 制 的 一 部 分 : 


inflation = pd.Series({1999 : 2.2, «more items», 2014 : 1.6, 2015 : np.nan}) 


> 1999 2.2 
> «More items» 
> 2014 1.6 
> 2015 NaN 





男 外 ， 也 可 以 使 用 任意 一 个 序列 创建 新 的 索引 ， 然 后 将 其 附加 到 现 有 的 series 中 : 


inflation.index = pd.Index(range(1999, 2015)) 
inflation[2015] = numpy.nan 


> 1999 2.2 
> «Mmore items» 
> 2014 1.6 


2015 NaN 


series 的 值 和 索引 可 以 有 各 自 的 名 称 ， 通 过 相应 的 name 属 性 进行 访问 和 分 配 。 这 些 名 称 实际 





上 起 到 了 文档 的 作用 ， 它 们 提醒 我 们 (以 及 未 来 的 核心 读者 ) 这 两 个 序列 的 本 质 : 


inflation.index.name = "Year" 
inflation.name = "%" 


> Year 
> 1999 2.2 


«Mmore items» 


> 2014 1.6 
; 2015 NaN 
> Name: %, dtype: float64 








通过 在 交互 式 命令 行 中 打印 series 或 者 输入 其 名 称 ， 可 以 查看 整个 series 的 信息 ， 包 括 所 有 


的 罕 引 名 称 。 也 可 以 调用 head() 和 tail() 函 数 , 这 两 个 聘 数 分 别 返 回 一 个 series 的 前 五 行 和 最 





Vy 


后 五 行 : 


inflation.head!() 





Qz 鸭子 测试 (Duck Test ) 是 对 一 种 归纳 推理 方式 的 幽默 说 法 。 它 可 以 解释 为 : 如 果 它 看 起 来 像 鸭 子 ， 游 泳 像 网 子 ， 








叫 声 像 鸭 子 ， 那 么 它 可 能 就 是 只 上 蝎子。 一 一 译 者 注 
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be 


= 


> 
> 
» 
> 
= 
> 


= 


2003 2.3 
Name: %, dtype: float64 


inflation.tail() 


Year 
2011 3. 
2012 2. 
2013 1. 
2014 1. 
2015 Na 
Name: %, dtype: float64 


与 head() 和 tait() 函数 相 比 ,也 许 你 会 更 喜欢 使 用 图 片 的 方式 (一 图 胜 千言 )， 可 以 参考 下 


OPN 


(我们 将 在 第 8 章 进 一 步 介绍 绘图 工具 。 ) 


Inflation in the USA in 1999-2015 


% 


2007 - 
2008 - 
2009 


2004 - 
2005 
2006 - 
2010 
2011 
2012 - 
2013 
2014 
2015 


1999 
2000 - 
2001 
2002 - 
2003 


series 非 常 适合 于 观测 一 个 变量 的 情况 。 但 是 ， 许 多 数据 集 都 具有 多 个 变量 ， 这 就 轮 到 frame 


上 场 了 。 


frame 


frame 是 一 个 行 和 列 都 具有 标签 的 表 。 可 以 通过 二 维 numpy 数 组 、 元 组 列表 、Python 字 典 或 一 





个 frame 构 造 出 一 个 新 的 fame。 如 果 使 用 的 是 字典 ， 则 字典 的 键 作为 列 的 名 称 ， 字 典 的 值 (必须 





是 序列 ) 作为 列 值 。 如 果 使 用 的 是 frame， 则 pandas 会 将 列 名 从 源 frame 复 制 到 新 frame。 如 果 使 
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用 的 是 数组 ， 可 以 通过 可 选 参数 cotumns ( 列 名 称 组 成 的 序列 ) 提供 列 名称 。 沿 用 numpy 的 方式 ， 
frame 索 引 为 编号 为 0 的 轴 ( “垂直 ” 维 )，frame 列 为 编号 为 1 的 轴 (“水 平 ” 维 )。 

我 们 使 用 美国 酒精 滥用 和 酒精 中 毒 研究 所 ?2011 年 公开 的 监测 报告 来 研究 frame。 报告 给 出 了 
1977 一 2009 年 美国 每 个 州 每 年 每 种 酒 ( 啤酒、 葡萄 酒 和 烈 酒 ) 的 人 均 消 费 量 。 


















































NIAAA 报 告 
加 NIAAA 报 告 是 一 个 非常 优秀 的 数据 源 ， 因 此 我 将 其 经 过 预 处 理 的 一 个 副本 作为 了 





本 书 “ 代 码 ” 项 ， 供 读者 浏览 。 不 过 要 记 住 : 不 要 喝酒 ， 专 心 做 数据 科学 ! 














可 以 将 相同 长 度 的 行 元 组 或 其 他 序列 的 列表 作为 数据 行 传递 给 构造 函数 , 来 创建 一 个 具有 列 
名 和 索引 的 简单 frame。( 此 处 使 用 了 第 37 单 元 的 一 个 pandas CSV 读 取 器 ， 创 建 了 完整 的 alLco 
frame， 然 后 选 出 了 其 中 一 年 的 数据 )。 


alco2009 = pd.DataFrame([(1.20, 0.22, 0.58), 
(1.31, 0.54, 1.16), 
(1.19, 0.38, 0.74), 
«more rows»], 
columns=("Beer", "Wine", "Spirits"), 
index=("Alabama", "Alaska", «more states»)) 








今 Beer Wine Spirits 
> ALabama 1.20 0.22 0.58 
今 ALaska 1.31 0.54 1.16 
今 Arizona 1.19 0.38 0.74 


人 «More rows» 


你 也 可 以 使 用 列 的 字典 ， 其 结果 与 上 面 的 代码 相同 : 


alco2009 = pd.DataFrame({"Beer" : (1.20, 1.31, 1.19, «more rows»), 
"Wine" : (0.22, 0.54, 0.38, «more rows»), 
"Spirits" : (0.58, 1.16, 0.74, «more rows»)}, 


index=("Alabama", "Alaska", «more states»)) 
对 于 单个 frame 列 的 访问 ， 可 以 使 用 字典 或 对 象 符号 。 但 是 ， 如 果 要 添加 新 列 ， 就 必须 使 用 
字典 符合 。 如 果 使 用 对 象 符号 ， 则 pandas 会 创建 一 个 新 的 ffame 属 性 。 和 series 一 样 ，frame 也 有 
head() 和 tail() 函数 。( 真 的 熊猫 * 也 是 有 尾巴 的 ! ) 


alco2009["Wine"].head!() 























今 State 
今 ALabama 0.22 
今 ALaska 0.54 





GD pubs.niaaa.nih.gov/publications/surveillance92/CONSO09.pdf 
@) pandas 也 可 译 为 熊猫 。 译 者 注 
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今 Arizona 0.38 
今 Arkansas 0.17 
今 CaLifornia 0.55 
今 Name: Wine, dtype: fLoat64 


alco2009.Beer.tail() 


今 State 


今 Virginia 1.11 
今 Washington 1.09 
今 West Virginia 1.24 
今 Wisconsin 1.49 
今 Wyoming 1.45 


今 Name: Beer, dtype: float64 
和 series 一 样 ，frame 也 支持 广播 : 可 以 使 用 一 条 赋值 语句 给 某 列 的 所 有 行 分 配 一 个 值 。 列 其 
至 可 以 不 存在 ; 当 列 不 存在 时 ，pandas 会 自动 创建 它 。 


alco2009["Total"] = 0 
alco2009.head() 





Beer Wine Spirits Total 











今 State 

今 ALabama 1.20 0.22 0.58 0 
今 ALaska 1.31 0.54 1.16 0 
今 Arizona 1.19 0.38 0.74 0 
>> Arkansas 1.07 0.17 0.60 0 
今 California 1.05 0.55 0.73 0 

代码 里 对 总 量 (Totat ) 的 设 半 品 然 是 错误 的 ， 我 们 将 在 第 36 单 元 介绍 如 何 用 算术 运算 来 修 中 

正 这 个 值 。 
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数据 标签 是 pandas 对 表格 数据 的 主要 贡献 。 所 谓 数据 标签 ， 是 指 与 列 和 行 相 关联 的 数字 或 
文本 标签 ( 例如 与 列 对 应 的 列 名 ， 以 及 与 行 对 应 的 扁平 化 索引 和 分 层 索 引 )。 这 样 的 关联 是 非常 
灵活 的 : 为 了 与 其 他 frame 相 匹配 ， 可 以 修改 底层 的 numpy 数 组 的 形状 〈 请 参阅 第 22 单 元 的 
reshape() 函数 ), 这 种 修改 可 能 会 使 fame 的 某 些 行 变 为 列 , 某 些 列 变 为 行 。 例 如 , 如 果 一 个 frame 
的 分 层 索 引 具 有 两 个 级 别 ( 比如 “Year” 和 “State”)， 而 要 匹配 的 男 一 个 frame 只 具有 “State” 索 
引 ， 则 pandas 会 将 “Year” 标 签 自动 转换 为 列 名 。 在 本 单元 中 ,你 将 了 解 扁平 索引 、 分 层 索引 和 
重建 索引 ， 以 及 其 他 重组 数据 标签 的 方式 。 
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索引 


fame 的 索引 是 一 组 分 配给 frame 行 的 标签 集合 。( 标签 必须 属于 相同 的 数据 类 型 ,但 标签 的 值 
不 一 定 是 唯一 的 。) 通过 可 选 参数 index， 可 以 给 DataF rame () 构 造 器 提供 索引 。 和 series 类 似 ， 
可 以 通过 属性 ijndex.values 和 columns .values 访 问 和 更 改 列 名 及 索引 。 


alco2009.columns.values 





















































今 array(['Beer', 'Wine', 'Spirits', 'Total'], dtype=object) 
alco2009.index.values 
> array(['Alabama', 'Alaska', 'Arizona', «...»], dtype=object) 


frame 中 的 任意 一 列 都 可 以 作为 一 个 索引 一 一 水 数 reset_index() 和 set_index(column) 分 
别 用 于 删除 现 有 索引 〈 如 果 存 在 的 话 ) 和 建立 一 个 新 索引 。 这 两 个 函数 都 返回 一 个 新 的 frame， 
但 是 如 果 提 供 了 可 选 参数 inpLace=True， 则 函数 将 直接 修改 fame 对 象 本 身 : 


alLco2009. reset_index().set_index("Beer").head() 





State Wine Spirits Total 


今 Beer 

今 1.20 Alabama 0.22 0.58 0 
,531 Alaska 0.54 1.16 0 
> 1.19 Arizona 0.38 0.74 0 
分 1.07 Arkansas 0.17 0.60 0 
今 1.05 California 0.55 0.73 0 








frame 的 索引 是 重要 的 行 访问 工具 和 相关 的 行 标 识 符 。 无 论 使 用 哪个 列 作为 索引 ， 它 必须 是 
有 意义 的 。 在 上 面 的 例子 中 ， 使 用 的 列 就 没有 意义 : 啤酒 消费 量 是 州 的 属性 ， 但 不 是 标识 符 。 


一 旦 有 了 索引 , 就 可 以 通过 行 的 索引 属性 ix 来 访问 某 一 行 , 这 就 像 是 一 个 用 索引 标签 作为 键 
的 行 series 的 字典 。frame 的 列 作为 每 个 series 的 索引 : 


alco2009.ix["Nebraska"] 


























今 Beer 1.46 
> Wine 0.20 
今 Spirits 0.68 
-分 Total 0.00 


> Name: Nebraska, dtype: float64 


Python 运算 符 in 可 以 检查 具有 某 个 标签 的 行 是 否 存在 于 frame 中 : 


"Samoa" in aLco2009 .index 





分 False 


函数 drop() 返 回 一 个 删除 了 一 行 或 若干 行 ( 用 列表 表示 ) 的 frame 的 副本 。 如 果 要 删除 原始 
frame 中 的 行 ， 请 传递 可 选 参数 inpLace=True。 
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重建 索引 


重建 索引 从 现 有 的 frame 或 series 中 选择 一 定 的 行 排列 、 列 排列 或 者 行 和 列 排列 ， 来 创建 新 的 
frame 或 series。 本 质 上 , 它 等 同 于 numpy 的 一 个 “智能 ”索引 (参见 第 23 单 元 ), 只 不 过 如 果 pandas 
在 原始 frame 中 找 不 到 请 求 的 行 或 列 标签 ， 它 将 创建 一 个 新 的 行 或 列 ， 并 用 nan 填 充 它 (或 它们 )。 


在 下 面 的 例子 中 , 我 们 创建 名 称 以 “S” 开 头 的 州 列表 ( 该 列表 包含 了 不 是 州 名 的 “Samoa”， 
当然 它 也 不 在 atco2009 frame 中 )。 然 后 ,除了 最 后 一 列 ( 即 “Total” 列 ， 它 没有 被 正确 初始 化 ) 
之 外 ， 再 添加 名 为 “Water” 的 列 。 最 后 ， 从 原始 的 frame 中 提取 所 选 的 行 和 列 。 因 为 有 一 行 和 一 
列 不 在 原始 的 frame alco 2009 中 ， 所 以 pandas 会 自动 创建 它们 : 

s_ states = [state for state in alco2009.index if state[0] == 'S'] + ["Samoa"] 


drinks = list(alco2009.columns) + ["Water"] 
nan_alco = alco2009.reindex(s states, columns=drinks) 




















VY 


Beer Wine Spirits Water 


今 State 

今 South Carolina 1.36 0.24 0.77 NaN 
今 South Dakota 1.53 0.22 0.88 NaN 
今 Samoa NaN NaN NaN NaN 


可 选 参数 method 的 可 能 值 为 "ffiLL" ( 正 向 填充 ) 和 "bfitll" (后 向 填充 )， 可 以 用 于 填补 
缺失 的 值 。( 这 仅 适 用 于 单调 减 或 单调 增 的 索引 。) 关于 数据 插值 的 更 多 信息 ， 请 参阅 第 33 单 元 。 





分 层 索 引 
pandas 支 持 分 层 〈( 多 级 ) 索引 和 分 层 ( 多 级 ) 列 名 。 多 级 索引 也 称 为 多 重 索 引 。 
多 级 索引 由 三 个 列表 组 成 : 
口 级 别名 称 
口 每 个 级 别 可 能 存在 的 所 有 标签 
口 ffame 或 series 中 每 一 项 的 实际 值 的 列表 ( 列表 的 长 度 相同 ， 并 等 于 索引 中 的 级 别 数 ) 
下 面 的 fame 包 含 完整 版 本 的 NIAAA 数 据 集 , 不 只 是 2009 年 。 它 具有 州 名 和 年 份 的 多 级 索引 ， 
并 且 按 照 两 个 索引 进行 排序 : 先 按 州 名 排序 ， 后 按 年 份 排序 。 


alco 
































今 Beer Wine Spirits 
今 State Year 
今 ALabama 1977 0.99 0.13 0.84 


-=> 1978 0.98 0.12 0.88 
今 1979 0.98 0.12 0.84 
今 1980 0.96 0.16 0.74 


-=> 1981 1.00 0.19 0.73 
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Wyoming 2005 1.21 0.23 0.97 
2006 1.47 0.23 1.05 

2007 1.49 0.23 1.10 

- 2008 1.54 0.23 1.12 
2009 1.45 0.22 1.10 





数据 转换 操作 通常 会 产生 分 层 索 引 ， 但 你 也 可 以 专门 构建 它们 。 函 数 MultiIndex.from_ 
tuples() 使 用 带 有 标签 的 元 组 和 可 选 的 级 别名 称 列表 生成 多 级 索引 。 可 以 将 多 级 索引 附加 到 现 
有 的 frame 或 series 中 ， 或 将 其 作为 参数 传递 给 构造 函数 DataFrame(): 


multi = pd.MultiIndex.from tuples(( 
("Alabama", 1977), ("Alabama", 1978), ("Alabama", 1979), ..., 
("Wyoming", 2009)), 
names=["State", "Year"]) 











今 MuLtiIndex(LeveLs=[['ALabama'， 'Alaska', «...», 'Wyoming'], 
> [1977, 1978, 1979, 1980, «...», 2009]], 
-> labels=[[0, 0, 90, 90, 0, 0, 0, 0, «...», 50], 

二 [90, 1, 2, 3, 4, 5, 6, 7, «...», 32]], 

S names=['State', 'Year']) 


alco.index = multi 


可 以 使 用 与 扁平 化 索引 相同 的 多 级 索引 。 部 分 索引 ( 使 用 几 个 标签 中 的 某 一 个 ) 产生 一 个 
frame; 完整 的 索引 产生 一 个 series。 


alco.ix['Wyoming'].head!() 


Beer Wine Spirits 
>» Year 


今 1977 1.79 0.21 1.32 
今 1978 1.82 0.22 1.36 
今 1979 1.86 0.22 1.30 
今 1980 1.85 0.24 1.32 
今 1981 1.91 0.24 1.27 


alco.ix['Wyoming', 1999] 


今 Beer 1.41 
> Wine 0.18 
今 Spirits 0.84 
>» Name: (Wyoming, 1999), dtype: float64 


pandas 使 用 相同 的 方式 处 理 多 级 索引 和 列 ， 这 使 得 索引 级 别 可 能 会 变 成 列 级 别 ， 反 之 亦 然 。 





堆 到 和 旋转 


使 用 多 级 的 列 名 可 以 将 多 级 索引 完全 或 部 分 扁平 化 , 同样 , 使 用 多 级 索引 则 可 以 将 多 级 列 名 
完全 或 部 分 局 平 化 。 


stack() 函数 会 增加 索引 的 级 别 数 ， 同 时 减少 列 名 的 级 别 数 。 它 使 得 frame 更 高 更 窗 ， 如 下 图 
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所 示 。 如 果 列 名 已 经 扁平 化 了 ， 则 函数 返回 一 个 series。 函 数 unstack() 的 作用 相反 : 它 减少 索引 
的 级 别 数 ， 同 时 增加 列 名 的 级 别 数 。 它 使 得 frame 更 短 更 宽 。 如 果 索 引 已 经 扁平 化 了 ， 则 函数 返 


回 一 个 series。 











拆 分 


忆 生 后 L WTATA I OT LDL | 


[sos os 














Alabama 





tall alco = alco.stack() 
tall alco.index.names += ["Drink"] 
tall alco.head(10) 


今 State Year Drink 
” ALabama 1977 Beer 





0.99 
Wine 0.13 
和 Spirits 0.84 
> 1978 Beer 0.98 
> Wine 0.12 
-> Spirits 0.88 
> 1979 Beer 0.98 
3 Wine 0.12 
今 Spirits 0.84 
-> 1980 Beer 0.96 


dtype: float64 


上 述 操作 的 结果 是 一 个 具有 三 级 索引 的 series ( 在 这 里 我 不 得 不 提供 缺少 的 第 三 级 的 名 称 
“Drink” 大 




















wide alco = alco.unstack() 
wide alco.head!() 


>》 Beer Bs 
> Year 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 ... 
-> State 

Alabama 99 0.98 0.98 0.96 1.00 1.00 1.01 1.02 1.06 1.09 


0 
Alaska 1 a i ai i 
Arizona 1.70 1.77 1.86 1.69 1.78 1.74 1.62 1.57 1.67 1.77 ... 

今 Arkansas 0.92 0.97 0.93 1.00 1.06 1.03 1.03 1.02 1.03 1.06 ... 

>» California 1.31 1.36 1.42 1.42 1.43 1.37 1.37 1.38 1.32 1.36 ... 


[5 rows x 99 columns] 
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上 述 操作 的 结果 是 具有 扁平 索引 和 两 级 分 层 列 名 的 ffame。 你 经 常会 在 CSV 和 其 他 表格 文件 
中 看 到 这 些 类 型 的 frame。 为 了 使 数据 更 加 “方正 ”, 更 加 易于 管理 , 你 可 能 需要 将 它们 堆 释 起 来 。 

堆 释 和 拆 分 是 更 一 般 的 绕 轴 旋转 ( pivoting ) 操作 的 特殊 情况 。 函 数 pivot (index， 
columns ,values ) 将 frame 转 换 为 男 一 个 frame， 新 的 frame 使 用 列 索 引 作为 新 的 索引 ，columns 作 
为 新 的 列 名 列表 ，vaLues 作 为 数据 。 

在 下 面 的 例子 中 ，atLco 被 重新 组 织 成 一 个 “方正 ”的 ffame， 按 年 份 (新 的 扁平 索引 ) 和 州 
( 列 名 ) 描述 葡萄 酒 的 消费 情况 


alco.pivot("Year", "State", "Wine") 



































> State Alabama Alaska Arizona Arkansas California Colorado Connecticut 


今 Year 

=> 1977 0.13 0.42 0.34 0.10 0.67 0.36 0.35 
今 1978 0.12 0.45 0.37 0.11 0.68 0.47 0.38 
=> 1979 0.12 0.47 0.39 0.10 0.70 0.47 0.40 
=> 1980 0.16 0.50 0.36 0.12 0.71 0.47 0.43 
-人 Wi 


> [33 rows x 51 columns] 


如 果 index 为 None， 则 pandas 会 重新 使 用 原始 frame 的 索引 。 
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数据 几乎 从 来 都 不 是 完美 的 。 有 些 值 是 固定 的 〈 不 需要 担心 这 样 的 值 )， 有 些 值 是 有 问题 的 
( 你 必须 用 加 盐 * 的 方式 对 待 它们 )， 而 有 些 值 是 缺失 的 。 


pandas 沿 用 了 传统 的 numpy .nan (第 25 单 元 ) 来 表示 缺失 数据 ， 这 样 做 的 好 处 是 不 会 将 缺失 
数据 与 其 他 任何 数字 混淆 ， 因 为 它 的 名 称 类 似 于 R 语 言 中 的 NA (“Not Available”， 不 可 用 ) 符号 。 
pandas 还 提供 识别 和 插 补 缺失 值 的 函数 。 


造成 series 和 frame 中 出 现 缺 失 值 的 原因 有 以 下 几 个 : 数据 可 能 从 未 被 收集 ; 数据 被 收集 了 ， 
但 由 于 是 不 恰当 的 值 而 被 丢弃 了 ; 你 将 几 个 本 身 是 完整 的 数据 集 组 合 起 来 了 , 但 是 它们 的 组 合 却 
不 再 是 完整 的 数据 集 。 可 惜 的 是 ,在 处 理 缺 失 值 之 前 ,不 能 进行 任何 严谨 的 数据 分 析 。 缺 失 值 必 
须 被 删除 或 插 补 。 所 谓 插 补 就 是 将 其 替换 为 有 意义 的 值 。 下 面 进 行 详 细 介绍 。 





























































































































@ “加 盐 ” 是 数据 加 密 中 常用 的 术语 ， 具 体 来 说 就 是 在 原 有 材料 (用户 自 定义 密码 ) 中 加 入 其 他 成 分 (一般 是 
自 有 且 不 变 的 因素 )， 以 此 来 增加 系统 复杂 度 。 一 一 译 者 注 
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删除 缺失 数据 


处 理 缺 失 数据 最 简单 的 方式 是 假装 你 从 来 没有 得 到 它 (视而不见 ， 充 耳 不 闻 ” 的 方法 )。 
dropna() 函数 可 以 删除 部 分 (how="any", 默认 值 ) 或 者 全 部 (how="atLtL'" ) 无 效 的 列 (axis=0， 
默认 值 ) 或 行 (axis=1 )， 并 返回 “干净 的 ”frame 对 象 。 可 以 使 用 可 选 参 数 inplace=True 直 接 
修改 原始 frame， 而 不 是 创建 副本 。 


nan_alco.dropna(how="all") 
























































今 Beer Wine Spirits Water 


> State 
今 South Carolina 1.36 0.24 0.77 NaN 
今 South Dakota 1.53 0.22 0.88 NaN 


nan_alco.dropna(how="all", axis=1) 


> Beer Wine Spirits 
今 State 

今 South Carolina 1.36 0.24 0.77 
今 South Dakota 1.53 0.22 0.88 
今 Samoa NaN NaN NaN 


只 删除 缺失 值 而 不 破坏 frame 的 结构 是 不 可 能 的 。 只 能 对 包含 “ 脏 的 ”单元 格 的 整 行 或 整 列 
进行 删除 ， 并 且 完 成 删除 操作 后 “干净 的 ”frame 可 能 是 空 的 ， 这 样 一 来 什么 数据 都 看 不 到 了 。 
nan_alco.dropna() 


> Empty DataFrame 6 
今 CoLumns: [Beer, Wine, Spirits, Water] 


今 Index: [] 





| 


插 补 缺失 数据 
处 理 缺 失 值 的 男 一 种 方法 是 插 补 缺失 数据 。 插 补缺 失 值 意 味 着 用 一 些 有 意义 的 、“ 干 净 的 ” 
值 代替 它们 。 当然 , 什么 是 有 意义 的 取决 于 数据 本 身 。 只 有 数据 科学 家 才能 判断 替代 值 是 否 合适 。 
两 种 最 常见 的 插 补 技术 是 用 常数 (0、1 等 ) 和 “干净 ” 值 的 平均 值 替 换 缺 失 值 。 但 首先 ， 需 
要 明确 哪些 是 缺失 值 。 


函数 isnuLL() 和 notnutLtL() 是 互补 的 。 当 某 个 值 是 nan 时 ， 函 数 isnuLL() 返 回 True。 当 某 
个 值 不 是 nan 时 ， 琐 数 notnuLtL() 返 回 True。 请 注意 ， 根 据 IEEE 754 的 浮 点 数 标准 ， 表 达 式 
np .nan==np.nan 为 FaLse， 这 使 得 直接 比较 是 不 可 能 的 ! 


nan_alco.isnull() 






















































































>》 Beer Wine Spirits Water 
今 State 
今 South Carolina False False False True 
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South Dakota False False 
Samoa True True 


nan_alco.notnull() 


Beer Wine 
State 
South Carolina True “True 
South Dakota True True 
Samoa False False 


False 
True 


Spirits 


True 
True 
False 


True 
True 


Water 


False 
False 
False 

















下 面 我 们 通过 估算 平均 值 来 修正 “Spirits” 列 (请 注意 ， 在 numpy 中 ， 连 字符 “-” 是 否定 运 
算 符 ): 
sp = nan alco['Spirits'] # 选中 具有 “ 脏 ” 值 的 一 列 数据 


clean = sp.notnull() # “干净 ” 值 的 行 编号 
sp[-clean] = sp[lclean] .mean() # 使 用 平均 值 来 修正 “ 脏 ” 值 


nan_alco 


Beer Wine 
State 
South Carolina 1.36 0.24 
South Dakota 1.53 0.22 
Samoa NaN NaN 


平均 值 插 补 的 方法 必须 逐 列 〈 或 逐 行 ) 地 进行 ， 


Spirits 


0.770 
0.880 
0.825 


Water 


NaN 
NaN 
NaN 








但 如 果 是 常数 搬 补 ， 就 可 以 直接 应 月 





到 整个 








frame。 了 函数 fitlna (val) 是 将 常数 val 插 到 空缺 处 的 最 简单 的 方式 。 男 外 ， 该 函数 可 以 沿 着 列 
(axis=0， 默 认 值 ) 或 行 (axis=1 ), 将 最 后 一 次 有 效 观 测 值 向 前 (method="ffill" ) 或 向 后 
(method="bfitl" ) 复制 。 除 非 指定 了 参数 inptace=True， 否 则 该 函数 将 返回 一 个 新 的 fame 
或 series。 





nan_atLco.fiLLna(0) 


Beer Wine 
State 
South Carolina 1.36 0.24 
South Dakota 1.53 0.22 
Samoa 0.00 0.00 


Spirits 


nan alco.fillna(method="ffil1") 


Beer Wine 
State 
South Carolina 1.36 0.24 
South Dakota 1.53 0.22 
Samoa 1.53 0.22 


蔡 换 数据 
男 一 种 处 理 特定 的 “ 脏 ” 数 据 的 方法 ， 是 根据 具体 情况 使 用 “干净 ” 值 有 选择 地 替换 它们 。 


Spirits 


0.77 
0.88 
0.88 


Water 
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repLace(valL_or_List,new_vatL) 函数 将 一 个 值 或 值 列表 替换 成 一 个 新 的 值 或 值 列表 ， 列 表 的 
长 度 必须 相同 。 除 非 传递 inpLace=True 参 数 ， 和 否则 该 函数 会 返回 一 个 新 的 frame 或 series。 

函数 combine first(pegs) 将 两 个 frame 或 两 个 series 组 合 在 一 起 。 它 用 frame/series 参 数 中 的 
相应 值 蔡 换 frame/series 对 象 中 的 缺失 值 。 从 某 种 意义 上 来 说 ， 函 数 的 参数 提供 了 默认 值 。 











第 34 单元 
组 合 数据 





使 用 series 或 fame 时 ， 有 用 的 数据 可 能 存在 于 多 个 frame 中 ,因此 可 能 需要 组 合 数据 以 备 进 一 
步 处 理 。pandas 提 供 了 合并 和 连接 frame 的 函数 一 一 你 只 需要 判断 是 否 需 要 合并 或 连接 。 


























合并 


frame 的 合并 类 似 于 数据 库 表 的 合并 : pandas 将 左 侧 和 右 侧 fame 中 具有 相同 索引 ( 或 其 他 指 
定 列 中 具有 相同 值 ) 的 行 组 合 在 一 起 。 如 果 左 侧 frame 与 右 侧 fame 中 相 匹 配 的 行 是 唯一 的 ， 则 称 
该 类 型 的 合并 为 一 对 一 合并 。 当 有 多 个 匹配 时 ， 该 类 型 的 合并 称 为 一 对 多 合并 。 对 于 一 对 多 合并 
而 言 ，pandas 会 根据 需要 复制 左 侧 fame 的 行 ， 而 复制 可 能 会 导致 行 的 重复 ( 我们 将 在 下 一 小 节 

介绍 如 何 处 理 重复 的 行 )。 当 两 个 frame 中 都 有 多 行 相 匹配 时 ， 这 种 合并 类 型 称 为 多 对 多 合并 ， 而 
pandas 还 是 会 根据 需要 进行 行 复制 ， 并 将 numpy,nans 插 人 缺失 数据 的 单元 。 


如 果 两 个 frame 具 有 一 个 名 称 相 同 的 列 〈 即 键 列 ), 就 可 以 将 该 列 上 的 frame 合 并 。 即 使 没有 这 
样 的 列 ， 也 可 以 指定 其 他 列 作为 键 ， 如 下 所 示 : 


df = pd.merge(df1, df2, on="key") 
df = pd.merge(df1, df2, left on="key1", right on="key2") 


使 用 美国 人 口 普查 局 截至 2009 年 7 月 1 日 的 数据 "， 建 立 一 个 关于 美国 人 口 的 frame。 除 了 包含 
每 个 州 的 人 口 数据 ， 该 fame 还 包含 美国 东部 、 东 北部 、 西 北部 、 中 西部 、 西 部 和 南部 ， 以 及 整 
个 美国 的 人 口 数据 。 


popuLation.head () 















































今 Population 
今 State 

今 Wyoming 544270 
今 District of Columbia 599657 
今 Vermont 621760 
今 North Dakota 646844 
=>> ALaska 698473 





QD www.census.gov/popest/data/historical/2000s/vintage_2009/state.html 
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population 和 alco2009 这 两 个 frame 都 具有 “State” 索 引 , 因此 可 以 将 索引 删除 , 把 两 个 frame 
在 公共 列 上 的 所 有 内 容 合 并 ， 同 时 观察 酒 的 消费 量 和 人 口 数 量 : 


= pd.merge(alco2009.reset index(), 
population.reset index()).set index("State") 








eal 





df .head() 

Beer Wine Spirits Population 
> State 

> ALabama 1.20 0.22 0.58 4708708 
> Alaska 1.31 0.54 1.16 698473 
> Arizona 1.19 0.38 0.74 6595778 
Arkansas 1.07 0.17 0.60 2889450 
California 1.05 0.55 0.73 36961664 


如 果 两 个 frame 中 有 相同 名 称 的 列 ， 则 pandas 会 将 后 级 "_1" 和 "_r" 添 加 到 列 名 称 中 。 使 用 可 
选 参数 suffixes( 两 个 字符 串 组 成 的 元 组 ) 控制 后 级 。 如 果 要 在 索引 列 而 不 是 一 般 的 列 上 合并 ， 
请 使 用 可 选 参数 Left_index=True 和 right_index=True (可 以 同时 使 用 或 单独 使 用 )。 以 下 语 
句 的 结果 与 之 前 的 相同 ， 但 默认 的 排序 顺序 可 能 存在 差异 : 


= pd.merge(alco2009, population, left index=True, right index=True) 






































df .head() 
> Beer Wine Spirits Population 
State 
Wyoming 1.45 0.22 1.10 544270 
District of Columbia 1.26 1.00 1.64 599657 
Vermont 1.36 0.63 0.70 621760 
> North Dakota 1.63 0.25 1.16 646844 
» ALaska 1.31 0.54 1.16 698473 











如 果 两 个 索引 都 是 键 ， 就 要 使 用 join () 函数 替换 上 述 的 merge( ) 函数 : 
population.join(alco2009).tail(10) 


Population Beer Wine Spirits 


-> State 
> Illinois 12910409 1.22 0.39 0.73 
今 Florida 18537969 1.21 0.48 0.92 
> New York 19541453 0.91 0.46 0.69 
> Texas 24782302 1.42 0.28 0.58 
California 36961664 1.05 0.55 0.73 
> Northeast 55283679 NaN NaN NaN 
今 Midwest 66836911 NaN NaN NaN 
> West 71568081 NaN NaN NaN 
South 113317879 NaN NaN NaN 
United States 307006550 NaN NaN NaN 











join() 和 merge() 这 两 个 函数 使 用 同一 个 可 选 参数 how， 它 的 可 接受 值 为 "Left" ( join() 
函数 的 默认 值 )、"right"、"inner" (merge() 函 数 的 默认 值 ) 或 "outer"。 左 连接 使 用 调用 函 
数 的 frame ( 即 左 侧 frame ) 的 索引 。 右 连接 使 用 作为 参数 的 fame ( 即 右 侧 frame ) 的 索引 。 外 连 
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接 使 用 索引 的 并 集 。 内 连接 使 用 索引 的 交集 。( pandas 的 连接 类 型 与 先前 在 第 18 单 元 中 介绍 的 
MySQL 连 接 类 型 一 致 。) 

如 果 frame 的 索引 不 相同 ， 则 左 连接 ( 或 合并 )、 右 连接 (或 合并 ) 和 外 连接 ( 或 合并 ) 操作 
将 引入 具有 缺失 值 的 行 。 在 上 述 例子 中 , 这 种 情况 发 生 在 啤酒 、 葡 萄 酒 和 烈 酒 的 总 量 未 知 的 地 方 。 
内 连接 (或 合并 ) 不 会 引入 新 的 缺失 值 。 

如 果 两 个 frame 具 有 名 称 相同 的 列 ， 则 必须 提供 可 选 参数 Lsuffix 和 rsuffix (这 两 个 参数 都 
是 字符 串 )。pandas 会 将 后 缀 附加 到 公共 的 列 名 称 之 后 。 

join() 函数 还 可 以 使 用 可 选 参数 on ， 实 现在 共享 的 列 名 称 上 连接 两 个 fame ( 但 不 能 用 名 称 
不 同 的 列 ， 或 者 一 个 是 列 而 另 一 个 是 索引 )。 



























































concat () 函数 通过 将 一 组 frame 彼 此 “ 竖 直 ”( axis=0， 默 认 值 ) 或 “水 平 ”( axis=1 ) 地 放 
置 在 一 起 来 连接 它们 ， 并 返回 一 个 新 的 frame: 


pd.concat([alco2009, population], axis=1).tail() 





今 Beer Wine Spirits Population 


今 Washington 1.09 0.51 0.74 6664195 
今 West NaN NaN NaN 71568081 
今 West Virginia 1.24 0.10 0.45 1819777 
今 Wisconsin 1.49 0.31 1.16 5654774 
今 Wyoming 1.45 0.22 1.10 544270 




















如 果 frame 的 维度 不 匹配 ，pandas 就 会 在 所 谓 的 “空位 ”处 加 入 具有 缺失 值 的 行 或 列 。 


pandas 忠 实地 保留 所 有 竖 直 堆 钱 的 frame 的 索引 ， 这 可 能 导致 索引 出 现 重 复 的 键 。 这 并 不 妨 
碍 你 的 使 用 ， 当 然 你 也 可 以 选择 删除 重复 的 项 ( 具体 方法 将 在 下 一 小 节 介 绍 )， 或 者 通过 可 选 参 
数 keys (字符 串 列表 ), 给 新 的 frame 添 加 二 级 索引 , 从 而 形成 分 层 索 引 。 对 于 “水 平 ”方向 的 ( 逐 
列 的 ) 连接 ， 可 以 使 用 相同 的 参数 创建 分 层 列 名 。 

我 们 使 用 加 拿 大 统计 局 网 站 "的 数据 ,创建 一 个 关于 2011 年 加 拿 大 省 份 人 口 的 frame。 接 下 来 
我 们 就 可 以 创建 一 个 新 的 frame 来 描述 北美 国家 人 口 ， 结 合 美国 和 加 拿 大 的 两 个 人 口 的 frame， 可 
以 给 出 一 个 合适 的 新 索引 。( 请 注意 ,美国 的 frame 比 加 拿 大 的 早 两 年 。) 


pop_na = pd.concat([population, pop ca], keys=["US", "CA"]) 
pop_na.index.names = ("Country", "State") 





























ES Population 
今 Country State 
今 US Wyoming 544270 





QD www.statcan.gc.ca/tables-tableaux/sum-som/l01/cst01/demo02a-eng.htm 
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>》 District of Columbia S599657 
=> Vermont 621760 
-=> North Dakota 646844 
-> Alaska 698473 
= Wy 

今 CA ALberta 3790200 
=» British Columbia 4499100 
-=> Yukon 35400 
今 Northwest Territories 43500 
> Nunavut 34200 


请 记 住 ， 必 要 时 ， 分 层 索引 可 以 被 扁平 化 。 














两 个 frame 应 该 进行 合并 还 是 连接 呢 ? 
merge() 和 concat() 都 可 以 将 两 个 或 多 个 frame 组 合 在 一 起 。concat ( ) 用 于 组 合 
ED 具有 相似 内 容 的 frame ( 比如 美国 各 州 和 加 拿 大 各 省 的 人 口 : “苹果 到 苹果 ”)， 而 
merge() 则 用 于 组 合 具有 互补 内 容 的 frame ( 比如 人 口 和 酒精 消费 率 :“ 苹 果 到 权 
5 





删除 重复 行 


函数 dupLicated([subset] ) 返 回 一 个 布尔 型 的 series ， 表 示 在 所 有 列 或 subset 表 示 的 列 中 
是 否 有 重复 的 行 (subset 是 一 个 列 名 称 组 成 的 序列 )。 可 选 参数 keep 用 于 控制 标记 的 重复 行 是 第 
一 个 重复 行 ("first" )、 最 后 一 个 重复 行 ("last" )， 还 是 每 个 (True ) 重复 行 都 标记 。 

函数 drop_duptLicates() 返 回 一 个 删除 了 所 有 列 或 subset 表 示 的 列 中 重复 行 的 frame 或 
series ( subset 是 一 个 列 名 称 组 成 的 序列 )。 可 选 参 数 keep 用 于 控制 删除 的 行 是 第 一 个 重复 行 
("frist" )、 最 后 一 个 重复 行 ( "Last" )， 还 是 每 个 (True ) 重复 行 都 删除 。 使 用 可 选 参 数 
inpLace=True 可 以 从 原始 对 象 中 删除 重复 项 。 















































第 35 单 元 ， 本 
数据 的 排序 和 描述 

















使 用 frame 来 表示 数据 是 远 远 不 够 的 。 接 下 来 我 们 需要 一 个 对 数据 进行 排序 和 描述 的 标尺 。 
Python 有 通用 的 标尺 函数 Len() 以 及 该 函数 的 “兄弟 函数 ”min() 和 max()， 这儿 个 函数 是 不 错 的 
出 发 点 。 但 是 除了 多 少 个 、 多 少 钱 这 样 的 问题 外 ， 我 们 经 常 需要 知道 更 多 问题 的 答案 。pandas 
提供 了 许多 函数 ， 用 于 排序 、 分 级 、 计 数 、 会 员 测试 和 获取 描述 性 的 统计 信息 。 
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排序 和 分 级 


series 和 frame 可 以 按 索引 或 值 进行 排序 。 函 数 sort_index() 返 回 按 索引 排序 的 frame ( 该 函 
数 不 适 用 于 series )。 排 序 顺序 总 是 字典 序 ( 数字 按 数 值 大 小 排序 ， 字 符 串 按 字母 表 的 顺序 排序 )， 
可 以 使 用 参数 ascending ( 默认 值 为 True ) 来 控制 升序 或 降序 。 和 之 前 一 样 , 选项 inplace=True 
可 以 使 pandas 对 原始 的 frame 进 行 排序 。 


population.sort index().head () 
































今 Population 
今 State 

=> ALabama 4708708 
今 ALaska 698473 
今 Arizona 6595778 
今 Arkansas 2889450 


今 CaLifornia 36961664 


函数 sort_values() 返 回 一 个 按 值 排序 的 frame 或 series。 对 于 frame 来 说 , 第 一 个 参数 是 某 一 
列 的 名 称 或 者 一 组 列 名 称 构成 的 列表 , 对 应 的 可 选 参数 ascending 可 以 是 布尔 值 或 布尔 值 构 成 的 
列表 ( 与 要 排序 的 数据 列 一 一 对 应 )。 人 参数 na_position ( 取 值 为 "first" 或 "Last" ) 指定 值 为 
nan 的 单元 在 排序 后 的 位 置 (在 开头 或 结尾 )。 


population.sort values("Population").head!() 








=>》 Population 
=> State 

今 Wyoming 544270 
今 District of Columbia 599657 
今 Vermont 621760 
今 North Dakota 646844 
=>> ALaska 698473 




















你 知道 怀俄明 州 (Wyoming ) 是 美国 人 口 最 少 的 州 吗 ? 现在 经 过 这 一 番 数 据 分 析 后 ， 这 个 事 
实 就 很 清楚 了 。 

函数 rank( ) 为 frame 或 series 的 每 个 值 计算 一 个 数值 等 级 。 如 果 有 相等 的 值 ， 则 该 函数 会 给 它 
们 分 配 一 个 平均 的 等 级 。 布 尔 型 参数 numeric_ontLy 仅 将 等 级 限制 为 数值 。 参 数 na_option ( 取 
值 为 "top"、"bottom" 或 "keep" ) 设 定 nan 的 处 理 方式 : 将 它们 移动 到 新 frame 的 顶部 或 底部 ， 
又 或 者 将 它们 保留 在 原始 的 fame 中 。 


pop_by_state = population.sort _ index() 
pop_by_state. rank().head() 














今 Population 
今 State 

今 ALabama 29 
今 ALaska 5 
今 Arizona 38 
今 Arkansas 20 


今 CaLifornia 51 
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现在 你 只 需要 殴 十 几 个 按键 来 将 上 面 的 输出 与 原始 的 人 口 frame 相 合并 或 连接 ， 就 可 以 得 到 
一 个 包含 实际 人 口 以 及 州 的 排名 的 frame。 


描述 性 统计 量 

描述 性 统计 函数 计算 一 个 series 或 ffame 的 每 一 列 的 和 (sum() )、 均 值 (mean() )、 中 值 
(median() )、 标 准 差 (std() )、 数 量 (count () )、 最 小 值 (min() ) 和 最 大 值 (max() )。 这 些 
函数 都 可 以 使 用 布尔 型 参数 skipna, 它 控 制 是 否 从 分 析 中 排除 nan 值 ， 而 参数 axis 告 诉 函 数 以 哪 
种 方向 获取 数据 (“垂直 ”或 “水 平 ”)。 


alco2009.max() 











Beer 1.72 
Wine 1.00 
Spirits 1.82 
今 dtype: float64 


业 业 出 


alco2009.min(axis=1) 


> State 

> ALabama 0.22 
=> ALaska 0.54 
今 Arizona 0.38 


今 Arkansas 0.17 
> California 0.55 
> dtype: float64 


alco2009.sum() 


Beer 63.22 

Wine 19.59 

Spirits 41.81 

dtype: float64 

函数 argmax() (针对 series ) 和 idxmax() (针对 frame ) 找 出 最 大 值 首次 出 现 的 索引 位 置 。 

这 两 个 函数 很 容易 记 住 : 它们 是 pandas 在 处 理 series 和 frame 时 仅 有 的 没有 统一 的 两 个 函数 。 
pandas 对 伪 积 分 、 伪 微分 和 其 他 累积 方法 的 支持 比较 有 限 。 梢 数 cumsum()、cumprod()、 

cummin() 和 cummax() 分 别 计算 从 series 或 frame 的 每 列 中 的 第 一 项 开始 的 累积 和 、 累 积 乘积 、 累 

职 最 小 值 和 累积 最 大 值 。 可 以 使 用 cumsum( ) 函数 获得 夏威夷 (或 其 他 任意 一 个 州 ) 的 累积 酒精 

消费 量 : 


alco.ix['Hawaii'].cumsum().head() 


VVV 











-> Beer Wine Spirits Total 
Year 

1977 1.61 0.36 1.26 3.23 
1978 2.99 0.82 2.56 6.37 


外 灿 :| 
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今 1979 4.59 1.26 3.84 9.69 
今 1980 6.24 1.72 5.05 13.01 
今 1981 7.98 2.16 6.21 16.35 











函数 diff() 计 算 连 续 的 列 或 series 项 之 间 的 滑动 差 。 计 算 结果 的 第 一 行 是 没有 定义 的 。 使 用 
diff() 函 数 也 可 以 找 出 夏威夷 每 年 酒 消费 量 的 变化 情况 : 
alco.ix['Hawaii'].diff().head() 


Beer Wine Spirits Total 
Year 
1977 NaN NaN NaN NaN 
1978 -0.23 0.10 0.04 -9.000000e-02 
1979 0.22 -0.02 -0.02 1.800000e-01 
1980 0.05 0.02 -0.07 -4.440892e-16 
> 1981 0.09 -0.02 -0.05 2.000000e-02 


执行 伪 微 分 操作 之 后 ， 计 算 结 果 中 最 后 一 列 的 名 称 具有 误导 性 。 可 以 将 其 改 为 “A(Total)” 
“Change of Total” 等 ， 以 免 混淆 。 


业 业 业 业 业 


业 炎 


唯一 性 、 计数 、 会 员 资 格 


numpy 可 以 将 数组 视 为 集合 (如 第 28 单 元 所 述 )。pandas 也 可 以 将 series 作 为 集合 来 处 理 (但 
frame 是 不 能 这 样 处 理 的 )。 下 面 我 们 再 次 使 用 第 28 单 元 中 伪 生 物 信 息 学 的 例子 , 来 认真 地 练习 我 
们 的 series 集 合 技能 : 

dna = "AGTCCGCGAATACAGGCTCGGT" 


dna as series = pd.Series(list(dna), name="genes") 
dna as_ series.head!() 

















pyb 
情 WUNPO 


中 


ANAA5T 


ame: genes, dtype: object 

函数 unique() 和 vatue_counts() 分 别 算出 series 和 frame 中 不 同 值 组 成 的 数组 ， 并 能 给 出 每 
个 不 同 值 出 现 的 次 数 ( 可 以 将 其 与 第 7 单元 的 计数 器 Counter 相 比较 )。 如 果 series 中 包含 nan， 则 
它们 同样 会 被 计数 。 


dna_ as _ series.unique() 


vy 


今 array(['A', '6', 'T', 'C'], dtype=object) 


dna_ as series.value counts().sort index() 
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-> T 4 
> Name: genes, dtype: int64 
isin() 函数 是 专门 为 pandas 的 两 个 主要 数据 类 型 ( 即 series 和 frame ) 定义 的 。 它 返回 一 个 与 
人 用 于 确定 series 或 frame 的 每 一 项 是 否 存在 于 某 个 集合 中 。 
我 们 知道 , 在 DNA 序 列 中 只 有 核 背 酸 A、C、G 和 T。 下 面 的 代码 可 以 告诉 我 们 , 之 前 构造 出 的 DNA 
序列 中 所 有 的 核 苷 酸 是 否 都 有 效 。 


valid nucs = list("ACGT") 
dna as series.isin(valid nucs).all() 








> True 


至 此 , 你 应 该 对 数据 感到 非常 满意 了 ,或许 你 已 经 等 不 及 要 进行 一 些 数值 处 理 ， 以 期 获得 很 
棱 的 结果 。 接 下 来 我 们 就 来 介绍 数据 转换 的 工具 。 









































E30 提存 
数据 转换 








你 现在 已 经 准备 好 一 睹 pandas 的 “强劲 套装 ”了 ， 它 们 是 矢量 化 的 算术 、 逻 辑 运 算 以 及 其 
他 数据 转换 机 制 。 


算术 运算 
pandas 支 持 四 种 算术 运算 ( 加法、 减法 、 乘 法 和 除法 ) 和 numpy 的 通用 函数 (ufunc， 参 考 第 


25 单 元 )。 可 以 使 用 相应 的 运算 符 和 函数 来 组 合 具有 相同 大 小 和 结构 的 fame 、frame 列 和 series， 
以 及 相同 大 小 的 series。 


有 了 算术 运算 ， 我们 终于 可 以 来 更 正 alco frame 的 “Total” 列 了 : 


alco["Total"] = alco.Wine + alco.Spirits + alco.Beer 
alco.head() 














今 Beer Wine Spirits Total 
分 State Year 


-分 ALabama 1977 0.99 0.13 0.84 1.96 
= 1978 0.98 0.12 0.88 1.98 
今 1979 0.98 0.12 0.84 1.94 
= 1980 0.96 0.16 0.74 1.86 
-> 1981 1.00 0.19 0.73 1.92 

















如 果 要 用 对 数 尺度 来 表示 总 消耗 量 ， 可 以 使 用 numpy 提 供 的 Log10()、tlog() 和 许多 其 他 通 
用 函数 : 
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np.logl0(alco.Total).head() 


上 册 


> State Year 


今 Alabama 1977 0.292256 


vv 


vu 


Name 


1978 0.296665 
1979 0.287802 
1980 0.269513 
1981 0.283301 

: Total, dtype: float64 


所 有 算术 运算 都 保留 索引 。 该 功能 称 为 数据 对 齐 : 两 个 series 相 加 时 ，pandas 会 将 一 个 series 


中 带 索 引 





“C” 的 项 添加 到 另 一 个 series 中 的 同名 项 目 中 。 如 果 不 存在 同名 项 目 ， 则 相 加 的 结果 为 


nan。 下面 我 们 来 模拟 基因 工程 的 做 法 ,从 第 35 单 元 第 3 小 节 的 原始 DNA 片 段 中 去 除 核 背 酸 C 和 T， 
得 出 两 个 DNA 片 段 ， 然 后 对 两 个 片段 的 不 同 核 背 酸 计数 : 


dna = "AGTCCGCGAATACAGGCTCGGT" 


dnal 
dna2 








dna.replace("C", "") 
dna.replace("T", "") 


dna as series1l = pd.Series(list(dnal),，name="genes") # 移 除 所 有 C 
dna as series2 = pd.Series(list(dna2),，name="genes") # 移 除 所 有 T 
dna as_ seriesl.value counts() + dna as series2.value counts() 


今 A 10 
今 CC NaN 
今 6 14 
今 T NaN 
今 Name: genes, dtype: float64 

















在 进行 数据 聚合 之 前 ,检查 一 下 数据 ,看 看 是 否 需要 进行 缺失 数据 的 清理 (参考 第 33 单 元 )。 


数据 聚合 
数据 聚合 由 数据 分 割 、 聚 合 和 组 合 这 三 个 步 又 组 成 。 
(1) 在 分 割 步骤 中 ， 数 据 按 单个 键 或 多 个 键 分 割 成 块 。 
(2) 在 聚合 函数 的 应 用 步骤 中 , 将 一 个 聚合 函数 ( 比如 sum() 或 count () ) 应 用 于 每 个 数据 块 。 
(3) 在 组 合 步骤 中 ， 计 算 结果 被 合并 为 一 个 新 的 series 或 frame。 


pandas 的 强大 就 在 于 它 拥有 groupby ( ) 函数 和 大 批 聚合 函数 , 可 以 自动 执行 这 里 列 出 的 三 个 
步 又， 所 以 我 们 要 做 的 就 是 喝 杯 咖啡 、 坐 享 其 成 。 


函数 groupby() 通 过 基于 一 个 或 多 个 分 类 的 键 值 将 行 分 到 不 同 的 组 中 ， 从 而 实现 对 frame 的 分 





聚合 
( 






































割 。 该 函数 返回 一 个 组 生成 器 ， 可 以 在 循环 中 使 用 (来 访问 组 的 内 容 ) 或 者 与 聚合 函数 一 起 使 用 。 





函数 包括 count() (返回 组 中 的 行 数 )，sum() (返回 组 中 数字 行 的 总 和 )，mean() 、 





median()、std() 和 var() (每 个 函数 都 返回 组 中 所 有 行 相应 的 统计 量度 量 ), min() 和 max() ( 返 








回 组 中 最 小 和 最 大 的 行 )，prod() (返回 组 中 数字 行 的 乘积 )，first() 和 1last() (返回 组 中 的 
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第 一 行 和 最 后 一 行 ， 该 函数 仅 对 有 序 的 fame 有 意义 )。 
下 面 来 考察 一 下 我 们 一 直 在 使 用 的 alco frame， 并 得 出 一 年 中 所 有 州 总 的 酒 消费 量 : 


# 下 面 按 年 份 ( 列 “Year”) 分 组 

alco noidx = alco.reset index() 

sum alco = alco noidx.groupby("Year").sum() 
sum alco.tail() 








> Beer Wine Spirits Total 
今 Year 

-> 2005 63.49 18.06 38.89 120.44 
> 2006 64.37 18.66 40.15 123.18 
-> 2007 64.67 19.08 40.97 124.72 
=> 2008 64.67 19.41 41.59 125.67 
今 2009 63.22 19.59 41.81 124.62 


如 果 使 用 多 个 列 进 行 分 割 ， 则 结果 具有 多 个 索引 ， 每 个 列 对 应 一 个 级 别 的 索引 。 
还 可 以 在 一 个 for 循 环 中 ,通过 组 的 迭代 访问 每 个 组 的 内 容 。 在 每 次 迭代 中 ，groupby () 函 
数 返 回 的 生成 器 提供 索引 条 目 以 及 与 条 目 对 应 的 行 组 (以 fame 的 形式 ): 


for year, year frame in alco noidx.groupby("Year"): 
«do_something(year, year_frame)» 


有 时 你 可 能 希望 使 用 一 个 可 计算 的 属性 来 实现 行 的 分 组 ， 而 不 是 使 用 现 有 的 某 个 列 或 多 个 
列 。pandas 人 允许 使 用 字典 或 series 的 映射 来 实现 数据 聚合 。 让 我 们 考虑 一 个 将 州 映射 到 美国 人 口 
普查 局 定义 的 地 区 "的 字典 : 


state2reg 




















| 


今 {'Idaho': 'West', 'West Virginia': 'South', 'Vermont': 'Northeast', «...»} 
现在 可 以 按 地 区 计算 酒精 的 平均 消费 量 了 ! 请 记 住 , 字典 的 操作 对 象 是 行 索引 标签 ， 而 不 是 
行 的 值 ， 因 此 需要 给 某 些 列 分 配 frame 索 引 ( 至 少 在 分 组 操作 时 需要 这 样 处 理 )。 字典 的 值 ( 同时 
也 是 组 的 名 称 ) 成 为 返回 的 frame 的 索引 : 


alco2009.groupby(state2reg).mean() 

















>» Beer Wine Spirits 
> Midwest 1.324167 0.265000 0.822500 
今 Northeast 1.167778 0.542222 0.904444 
今 South 1.207500 0.275625 0.699375 
-> West 1.249231 0.470769 0.843846 


奥 卡 姆 "是 英国 方 济 会 的 一 位 修道 士 、 经 院 哲学 家 和 神学 家 。 用 他 的 话说 ( 其 实 并 不 是 他 说 
的 )， 数 据 聚 合 精简 了 实体 ， 因 此 对 我 们 是 有 好 处 的 。 相 反 ， 离 散 化 将 值 转换 为 类 别 ， 增 加 了 实 























QD www2.census.gov/geo/docs/maps-data/maps/reg _div.txt 
© en.wikipedia.org/wiki/William_ of Ockham 
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体 ， 这 对 我 们 是 不 利 的， 除非 它 确实 非常 有 用 。 


离散 化 


离散 化 是 指 将 连续 变量 转换 为 离散 (分 类 ) 变量 ,通常 用 于 直方 图 和 机 器 学 习 (参见 第 
10 章 )。 

函数 cut ( ) 将 作为 第 一 个 参数 的 数组 或 series 分 割 成 半 开 半 闭 的 区 间 ( 即 类 别 )。 第 二 个 参数 
是 一 个 数 (代表 相同 大 小 的 区 间 的 个 数 )， 或 者 是 一 个 区 间 的 边界 列表 。 如 果 要 将 序列 分 割 成 N 
个 区 间 ， 则 可 以 传递 N+1 个 区 间 边 界 组 成 的 列表 。 由 cut( ) 函数 生成 的 类 别 属 于 序数 型 数据 : 可 
以 对 它们 进行 排序 和 相互 比较 。 


cats = pd.cut(alco2009['Wine'], 3).head!() 



























































—> State 

=> ALabama (0.0991, 0.4] 
=> ALaska (0.4, 0.7] 
> Arizona (0.0991, 0.4] 
=> Arkansas (0.0991, 0.4] 
今 California (0.4, 0.7] 


今 Name: Wine, dtype: category 
今 Categories (3, object): [(0.0991, 0.4] < (0.4, 0.7] < (0.7, 1]] 


如 果 你 想 制作 自己 的 类 别 标签 ， 只 需要 传递 男 一 个 可 选 参数 Labels (NN 个 标签 组 成 的 列表 ， 
每 个 区 间 对 应 一 个 标签 )。 


cats = pd.cut(alco2009['Wine'], 3, labels=("Low", "Moderate", "Heavy"')) 
cats.head() 

















=> State 

=> Alabama Low 
今 ALaska Moderate 
今 Arizona Low 
=> Arkansas Low 
今 CaLifornia Moderate 


今 Name: Wine, dtype: category 
今 Categories (3, object): [Low < Moderate < Heavy] 


如 果 设 置 LabeLs=Fatse， 则 cut () 函数 只 对 数据 区 间 进 行 编号 而 不 做 标记 ， 并 返回 区 间 的 
成 员 信息 : 


cats = pd.cut(alco2009['Wine'], 3, labels=False).head!() 











=> State 

今 ALabama 0 

今 ALaska 1 

今 Arizona 0 

今 Arkansas 0 

今 CaLifornia 1 

=> Name: Wine, dtype: int64 
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函数 qcuts () 与 函数 cuts() 类 似 ， 不 同 的 是 qcuts() 使 用 分 位 数 而 不 是 区 间 宽 度 进行 分 割 。 
可 以 用 它 来 计算 分 位 数 (比如 中 位 数 和 四 分 位 数 )。 


quants = pd.qcut(aLco2009 [ 
quants .head () 


-分 State 

分 ALabama Low 
今 ALaska Heavy 
> Arizona Moderate 
> Arkansas Low 
> CaLifornia Heavy 





'Wine'], 3, labels=("Low", "Moderate", "Heavy")) 


> Name: Wine, dtype: category 
今 Categories (3, object): [Low < Moderate < Heavy] 


男 一 种 使 用 少量 可 能 值 ( 这些 值 已 分 过 类 ! ) 离散 化 变量 的 方法 是 将 其 分 解 为 一 组 虚拟 指标 
变量 ， 每 个 变量 对 应 一 个 可 能 的 值 。 












































虚拟 变量 是 一 个 布尔 型 变量 ， 与 其 对 应 的 类 别 变 量 的 值 为 tue， 其 他 所 有 值 为 false。 在 逻辑 
回归 以 及 其 他 形式 的 机 器 学 习 中 用 到 了 虚拟 变量 ， 第 10 章 将 讨论 相关 内 容 。 

函数 get_dummies () 将 数组 、series 或 frame 转换 为 与 原始 对 象 拥 有 相同 索引 的 另 一 个 fame， 
每 个 列 对 应 一 个 虚拟 变量 。 如 果 对 象 是 一 个 fame, 请 使 用 可 选 参 数 coLumns ( 需要 离散 化 的 列 组 





成 的 列表 )。 

















回顾 在 第 36 单 元 第 2 小 节 给 出 的 州 的 地 区 划分 ， 此 处 给 出 这 种 划分 的 使 用 指示 器 的 表示 法 : 


pd.get dummies(state2reg). 


sort index().head() 


Midwest Northeast South West 


今 state 

今 ALabama 

> ALaska 

> Arizona 
Arkansas 

> California 


局 局 口 口 吕 


业 业 半山 


因为 每 个 州都 只 属于 一 个 区 域 ， 所 以 每 行 中 所 有 值 的 总 和 总 是 等 于 1， 对 于 任何 虚拟 变量 




















是 如 此 。 


映射 





口 虽 虽 虽 虽 
opoop 
Poppo 























映射 是 最 一 般 的 数据 转换 方式 。 它 使 用 map( ) 函数 将 任意 的 单 参数 函数 应 用 于 选中 列 中 的 每 




















个 元 素 。 单 参数 函数 可 以 是 内 罩 
lambda 函 数 。 





的 Python 因数 、 任 意 导入 模块 的 函数 、 用 户 定义 的 函数 或 匿名 的 


举 个 例子 ， 我 们 来 创建 三 个 字母 的 州 名 缩写 。 
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with state = alco2009.reset index() 
abbrevs = with state["State"] .map(lambda x: x[:3].upper()) 
abbrevs ,head () 

















=> 0 ALA 

=> 1 ALA 

= 2 ARI 

3 ARK 

= 4 CAL 

今 Name: State, dtype: object 

显然 , 我们 没 能 创建 出 唯一 的 三 个 字母 的 缩写 , 但 为 了 理解 map() 也 数 ， 这 个 例子 还 是 值得 

一 试 的 ! 




















与 高 度 优化 和 并 行 化 的 通用 函数 不 同 ， 作 为 参数 传递 给 map ( ) 的 函数 是 由 Python 解释 器 执行 
的 ， 无 法 对 其 进行 优化 。 这 使 得 map( ) 函数 非常 低 效 ， 所 以 应 该 在 没有 其 他 选择 时 才 使 用 它 。 











交叉 表 


交叉 表 计 算 组 频率 ， 并 返回 一 个 fame， 其 行 和 列 分 别 对 应 两 个 分 类 变量 ( 因子 ) 的 不 同 值 。 
如 果 提 供 可 选 参数 marginins=True， 该 函数 还 会 计算 行 和 列 小 计 值 。 

以 下 代码 计算 一 个 州 是 “葡萄 酒 州 ”( 葡萄 酒 消费 量 高 于 平均 水 平 ) 还 是 “啤酒 州 ”( 啤酒 消 
费 量 高 于 平均 水 平 ) 的 联合 频率 : 

wine state = alco2009["Wine"] > alco2009["Wine"].mean() 


beer state = alco2009["Beer"] > alco2009["Beer"].mean() 
pd.crosstab(wine state, beer state) 
























































=> Beer False True 


今 Wine 
>> False 14 15 
=> True 12 10 



































如 果 表 中 数字 的 差异 不 是 很 大 ( 本 例 中 的 数字 差异 就 不 大 ! ), 那么 这 两 个 因子 可 能 就 是 独立 
的 。 我 们 将 在 第 47 单 元 第 2 小 节 中 回顾 这 个 例子 。 





第 37 单元 
掌握 pandas 的 文件 读 写 功能 





即使 你 想 不 出 使 用 pandas 的 理由 ， 你 仍然 会 被 pandas 的 文件 读 写 ( 即 输入 和 输出 ) 功能 所 
折服 。pandas 的 输入 和 输出 功能 一 方面 可 以 实现 fame 和 series 之 间 的 数据 交换 ， 另 一 方面 能 实现 
CSV 文 件 、 表 格 文件 、 固 定 宽度 文件 、JSON 文 件 〈 在 第 15 单 元 已 经 讨论 过 )、 操 作 系 统 剪 贴 板 等 
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之 间 的 数据 交换 。pandas 支 持 ; 


口 自动 索引 和 列 名 提取 

口 数据 类 型 推 上 新 、 数 据 转换 和 缺失 数据 的 检测 

口 日 期 时 间 解 析 

口 消除 “不 干净 的 ”数据 ( 跳 过 行 、 页 脚 和 评论 ; 处 理 数 千 个 分 隔 符 ) 
口 数据 分 块 








读 取 CSV 和 表格 文件 


函数 read_csv() 根 据 文件 名 或 打开 的 文件 句柄 ， 从 指定 的 CSV 文 件 中 读 取 一 个 fame。 该 
函数 具有 近 五 十 个 可 选 参数 ， 它 是 处 理 CSV 文 件 的 瑞士 军刀 。 我 们 自然 不 会 再 使 用 CSV 读 取 器 
reader() 了 (参阅 第 14 单 元 ， 也 许 现 在 可 以 抛弃 它们 了 )。read_csv() 函数 的 部 分 重要 参数 
如 下 。 


口 sep 或 deLimiter: 列 分 隔 符 。read_csv() 的 这 个 参数 可 以 接受 正则 表达 式 ( 例如 r"\s+" 
表示 的 “任意 多 个 空白 ”)。 

口 header: 作为 列 名 的 行 号 。 如 果 你 有 自己 的 列 名 列表 ， 则 传递 None。 

口 index_col: 作为 索引 的 列 名 。 如 果 传 递 False， 则 pandas 将 生成 一 个 默认 数字 索引 。 
口 skiprows: 要 跳 过 的 文件 头 行 数 或 行 号 列表 。 

口 thousands: 表示 大 数 时 使 用 的 千 位 分 隔 符 。 

D names: 列 名 列表 。 

口 na_values: 用 于 处 理 缺 失 数据 的 字符 串 或 字符 串 列 表 。 如 果 要 为 不 同 的 列 使 用 不 同 的 字 
符 串 〈 例如， 缺失 数据 为 字符 串 就 替换 为 "n/a" ， 缺 失 数 据 为 数值 就 蔡 换 为 -1 )， 可 以 传 
递 一 个 字典 ， 字 典 的 值 为 要 使 用 的 字符 串 ， 字 典 的 键 为 列 名 。 


我 们 来 看 看 美国 的 各 州 和 人 口 普查 局 的 地 区 组 成 的 列表 的 导入 过 程 ( 第 36 单 元 第 2 小 节 )。 原 
始 的 CSV 文 件 具有 规则 而 稀 玻 的 结构 : 


Northeast,New England,Connecticut 
, ,Maine 

, /Massachusetts 

,New Hampshire 

, :Rhode Island 

,Vermont 
Northeast,Mid-Atlantic,New Jersey 
,New York 

, ,PennsyLvania 

«more states» 


它 没有 标题 行 ， 并 且 有 许多 空 的 单元 格 ， 不 过 我 们 知道 如 何 填充 列 名 和 空 单元 格 : 


regions = pd.read csv("code/regions.csv", 
header=None, 















































第 37 单元 ”掌握 pandas 的 文件 读 写 功能 89 





names=("region", "division", "state")) 
state2reg series = regions.ffill().set index("state")["region"] 
state2reg Series.head () 


今 State 

> Connecticut Northeast 
今 Maine Northeast 
>> Massachusetts Northeast 
今 New Hampshire Northeast 
今 Rhode IsLand Northeast 


今 Name: region, dtype: object 


原先 的 state2 reg 是 一 个 字典 ， 不 是 一 个 series， 不 过 pandas 具 有 几乎 适用 于 所 有 情况 的 转 


state2reg = state2reg series.to dict() 























SS {'Washington': 'West', 'South Dakota': 'Midwest', «more states»} 
函数 to_csv() 将 一 个 frame 或 一 个 series 写 到 CSV 文 件 中 。 


函数 read tablte() 根 据 文件 名 或 打开 的 文件 句柄 ， 从 指定 的 表格 文件 中 读 取 一 个 frame。 本 
质 上 ， 它 是 一 个 使 用 制 表 符 〈 而 不 是 一 个 去 号 ) 作为 默认 分 隔 符 的 read_csv () 水 数 。 








分 块 


如 果 你 想 从 大 型 文件 中 分 块 读 取 表 格 数 据 ， 就 需要 进行 分 块 。 进 行 分 块 时 ， 只 需 将 参数 
chunksize ( 行 数 ) 传递 给 函数 read_csv() 即 可 。 该 函数 没有 实际 地 读 取 行 ， 而 是 返回 一 个 可 
以 在 for 循 环 中 使 用 的 生成 器 。 


让 文件 code/regions_clean.csv 具 有 与 code/regions.csv 相 同 的 数据 , 但 没有 遗漏 的 地 区 ( region ) 
和 专区 (division )。 让 我 们 假装 这 个 文件 真 的 很 大 ， 以 至 于 不 敢 一 下 子 读 完 这 个 文件 。 下 面 的 代 
码 创 建 一 个 用 于 迭代 的 TextFileReader 对 象 和 一 个 累加 器 series， 每 次 从 文件 中 读 取 5 行 。 对 于 
读 取 的 每 个 片断 ， 提 取出 "region" 列 ， 并 对 列 中 的 值 进行 计数 。 然 后 将 计数 结果 加 到 累加 器 。 
当 某 个 键 不 存在 于 累加 器 中 时 , 通过 可 选 参数 fiLL_vatLue 将 其 简单 地 设置 为 0, 以 避免 出 现 nan。 


chunker = pd.read csv("code/regions clean.csv", chunksize=5, 
header=None, names=("region", "division", "state")) 















































accum = pd.Series() 

for piece in chunker: 
counts = piece["region"].value counts() 
accum = accum.add(counts, fill value=0) 


accum 
今 Midwest 12 
今 Northeast 9 
今 South 17 
今 West 13 


今 dtype: float64 
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读 取 其 他 文件 

函数 read_ json() 尝 斌 从 JSON 文 件 中 读 取 一 个 frame。 由 于 JSON 文 件 不 是 一 般 的 表格 , 它 具 
有 一 定 的 层次 结构 ， 因 此 并 非 总 是 能 将 JSON 数 据 强制 转换 为 矩形 格式 。 
函数 read fwf() 从 具有 固定 宽度 数据 的 文件 中 读 取 一 个 ffame。 该 函数 使 用 的 参数 是 coLspecs 
(一 行 中 列 的 开始 位 置 和 结束 位 置 +1 的 若干 个 元 组 组 成 的 列表 ) 或 widths ( 列 宽 组 成 的 列表 )。 


函数 read_cLipboard() 从 系统 剪贴 板 中 读 取 文本 ， 然 后 将 其 传递 给 read tabtLe() 。 通 过 
将 数据 复制 到 剪贴 板 ， 可 以 使 用 此 函数 一 次 性 从 Web 页 面 中 提取 表格 。 


轮 到 你 了 


pandas 的 frame 和 series 是 非常 便于 使 用 的 数据 容器 ， 它 们 在 numpy 数 组 之 上 增加 了 一 个 额外 
的 抽象 级 别 ， 并 增强 了 一 致 性 。frame 和 series 非 常 适合 将 数据 导入 和 导出 到 表格 文件 ， 结 构 化 、 
重组 .合并 和 聚合 数据 ,以 及 对 数据 执行 简单 的 乃至 高 级 的 算术 运算 ,而 且 , 不 同 于 R 语 言 的 frame， 
pandas 的 frame 的 大 小 不 受 计算 机 内 存 的 限制 ， 限 制 它 的 只 是 你 的 想象 力 。 


D 狂 独 的 捕获 量 * 
一 个 程序 ,使 用 每 年 加 拿 大 狂 独 的 捕获 量 " 给 出 每 十 年 的 狂 独 捕获 总 量 ， 并 将 结果 按 着 
遍 拉 列 (最 “有效 闪 的 ”十 年 拓 在 前 面 )。 如 果 cache 目 录 中 不 存在 数据 文件 ， 则 外 庆 自 动 
将 数据 下 载 到 cache 目 录 中 。 如 果 cache 目 录 不 存在 ， 则 程序 将 自动 创建 该 目录 。 程 序 将 计 
算 结果 保存 到 doc 目 录 下 的 CSV 文 件 中 。 如 果 doc 目 录 不 存在 ， 则 程序 将 自动 创建 该 目录 。 
DGDP 与 酒 消费 量 ** 
维基 百科 有 很 多 关于 人 口 统计 学 方面 的 数据 ， 包 括 人 均 酒精 消费 量 * 和 人 均 GDP?。 编 写 
一 个 使 用 这 些 数据 给 出 GDP 水 平 (高 于 平均 水 平 、 低 于 平均 水 平 ) 与 酒精 消费 水 平 (高 
于 平均 水 平 、 低 于 平均 水 平 ) 的 交叉 表 。 根 据 得 出 的 表 ， 分 析 这 两 个 参数 是 否 相关 。 
D 天 气 与 酒精 消费 *** 
按 州 将 酒精 消费 的 历史 数据 与 天 气 的 历史 数据 相 结合 。 使 用 交叉 表 来 估计 饮酒 习惯 是 否 
与 当地 平均 气温 和 总 降雨 量 相关 。 换 句 话说 ， 下 雨 的 时 候 人 们 会 喝 更 多 酒 吗 ? 
国家 气候 数据 中 心 的 网 站 "提供 了 天 气 的 历史 数据 。 







































































































































































QD vincentarelbundock.github.io/Rdatasets/csv/datasets/lynx.csv 
© en.wikipedia.org/wiki/List_of countries by alcohol consumption per capita 
@® en.wikipedia.org/wiki/List_of countries by _ GDP (PPP) per capita 








(@ www.ncdc.noaa. gov/cdo-web/ 


往 下 看 去 ， 目 光 扫 过 他 全 身 的 衣服 ， 可 以 看 到 那些 用 绳 扎 在 一 起 的 洞 ， 这 在 一 定 程 
度 上 确实 类 似 于 孩子 眼中 的 网 。 
一 一 英国 小 说 家 和 短篇 小 说 家 Morley Roberts 
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网 络 分 析 是 数据 分 析 的 一 个 新 兴 领 域 。 网 络 科 学 的 网 络 理论 和 方法 借鉴 了 数学 (图 论 )、 社 
会 科学 以 及 大 量 社会 学 内 容 。 有 些 人 还 将 网 络 分 析 称 为 “社交 网 络 分 析 ”， 这 一 点 我 们 ( 数据 科 
学 家 ) 就 不 做 评论 了 。 

从 数据 科学 的 角度 来 看 ,网 络 是 相互 连接 的 对 象 构成 的 集合 。 实际 上 我 们 可 以 将 任意 类 型 的 
数字 和 非 数 字 (文本 ) 对 象 视 为 网 络 ， 只 要 对 象 之 间 存 在 一 种 相互 连接 的 方式 。 结 合 相关 的 背景 
知识 和 研究 领域 , 可 以 将 网 络 对象 称 为 “节点 ”“ 顶 点” 或“ 角色”, 而 将 对 象 之 间 的 连接 称 为 “ 弧 ” 
“ 边 ”“ 链 接 ” 或 “联系 "。 可 以 使 用 图 形 化 的 方式 和 数学 的 方式 将 网 络 表示 为 图 形 。 

本 章 中 , 你 将 学 习 如 何 基于 网 络 的 和 非 网 络 的 数据 创建 网 络 ， 了 解 网 络 度量 并 分 析 网 络 , 尤 
其 是 如 何 计算 和 理解 网 络 节点 的 中 心性 和 社区 结构 。 在 本 章 中 我 们 有 两 个 好 助手 ， 分 别 是 
Anaconda 的 标准 模块 networkx 和 在 学 习 社 区 检测 "之 前 需要 安装 的 community 模 块 。 
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在 数学 上 ,图 是 一 组 与 边 相 连 的 节点 的 集合 。 边 、 市 点 和 图 的 类 型 有 许多 种 ,它们 具有 不 同 
的 连接 和 解析 方式 。 因 此 ， 在 开始 剖析 图 之 前 ， 我 们 先 给 出 一 些 重要 的 定义 。 








QD pypi.python.org/pypi/python-louvain/0.3 
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图 的 元 素 、 类 型 和 密度 


如 果 图 中 至 少 有 一 条 边 是 有 向 的 (例如 , 一 条 节点 A 到 节点 B 的 有 向 边 对 应 的 是 从 A 到 B 的 连 
接 ， 而 不 是 从 B 到 A 的 连接 )， 则 图 本 身 就 是 有 方向 的 ， 这样 的 图 称 为 有 向 图 。 如 果 图 中 有 平行 边 
( 即 节点 A 可 以 通过 多 条 边 连 接 到 节点 B )， 则 该 图 称 为 多 图 。 从 市 点 A 到 节点 A 的 边 称 为 循环 。 不 
存在 循环 和 平行 边 的 图 称 为 简单 图 。 


图 的 边 可 以 分 配 权重 。 权 重 通常 (但 不 是 必须 ) 是 0 和 1 之 间 的 数字 ( 包括 0 和 1 )。 权 重 越 大 
意味 着 方 点 之 间 的 连接 越 强 。 具 有 加 权 边 的 图 称 为 加 权 图 。 

边 的 权重 是 边 的 一 种 属性 。 边 可 能 还 有 其 他 属性 ,包括 数字 、 布 尔 和 字符 串 类 型 的 变量 。 
的 节点 同样 可 以 具有 类 似 的 属性 。 

图 的 节点 的 度 被 定义 为 连接 ( 入射 ) 到 节点 的 边 数 。 对 于 有 向 图 来 说 ， 度 进一步 区 分 为 入 度 
(以 节点 为 终点 的 边 数 ) 和 出 度 〈 以 节点 为 起 点 的 边 数 )。 

图 的 密度 d (0<d<1 ) 表示 图 与 完全 图 的 接近 程度 。 所 谓 完全 图 是 指 包含 所 有 可 能 边 的 图 。 
例如 ， 一 个 具有 e 条 边 和 n 个 节点 的 有 向 图 ， 其 密度 为 : 
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六 三 
n(n—1) 
相应 的 无 向 图 的 密度 为 : 
2e 
7(7 一 ]) 


图 的 结构 


图 以 及 图 所 引出 的 网 络 都 是 多 样 化 、 多 面 性 、 令 人 兴奋 的 对 象 。 了 解 必要 的 术语 有 助 于 更 好 
地 和 擎 握 相 关 知 识 。 

节点 间 的 连通 性 是 基于 图 上 的 游 走 过 程 得 出 的 概念 。 一 个 游 走 过 程 是 由 一 组 边 的 序列 构成 
的 ， 其 中 一 条 边 的 端点 是 男 一 条 边 的 起 点 。 乘 坐 公共 汽车 从 “家 ”节点 到 “地 铁 站 A” 节 点 ， 然 
后 乘坐 地 铁 从 “地 铁 站 A” 到 “地 铁 站 B”， 再 从 “地 铁 站 B” 步 行 到 “我 们 的 办 公 室 ” 节 点 , 我 
们 就 完成 了 一 个 图 上 的 游 走 (虽然 只 有 一 部 分 是 真正 靠 步 行 完成 的 ) 我 们 称 不 与 自身 相交 的 游 
走 (也 就 是 说 , 游 走 过 程 中 除了 第 一 个 和 最 后 一 个 节点 外 , 节点 出 现 的 次 数 都 小 于 两 次 ) 为 路 径 。 
一 个 闭合 的 路 径 称 为 循环 。 当 我 们 结束 艰难 的 一 天 回 到 家 时 ， 一 天 的 游 走 就 构成 了 循环 "。 


和 测量 现实 生活 中 两 个 对 象 之 间 的 距离 一 样 , 我 们 可 以 测量 任意 两 个 节点 之 间 的 距离 ,这 个 
距离 是 连接 节点 的 所 有 路 径 中 最 小 的 边 数 (有 时 也 称 为 “ 跳 ”)。 加 权 图 没有 距离 的 定义 , 不 过 有 















































Qz 注意 不 能 原 路 返回 ， 和 否则 不 构成 路 径 ， 更 不 是 循环 。 一 一 译 者 注 
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时 你 可 以 假装 图 没有 加 权 ， 仍然 用 边 数 来 计算 距离 。 对 于 有 向 图 而 言 ， 从 A 到 B 的 距离 并 不 总 是 
等 于 从 B 到 A 的 距离 。 实 际 上 ,也 许 我 们 只 能 从 A 到 B, 而 不 能 从 B 到 A!1 从 出 生 到 死亡 的 生命 历程 
就 是 一 个 伤感 的 却 再 清楚 不 过 的 例子 。 


图 中 任意 两 个 节点 之 间 的 最 大 距离 称 为 图 的 直径 (D ),。 与 加 不 同 ， 图 没有 面积 。 

连通 分 量 或 分 量 是 图 中 这 样 一 组 节点 的 集合 : 集合 中 的 每 个 节点 都 具有 到 达 集 合 中 的 所 有 其 
他 节点 的 路 径 。 对 于 有 向 图 来 说 ， 连 通 分 量 又 分 为 强 连通 分 量 ( 有 实际 的 连接 路 径 ) 和 弱 连 通 分 
量 (将 边 转换 为 无 向 边 后 才 存在 连接 路 径 )。 

如 果 图 有 多 个 分 量 ， 则 最 大 的 分 量 称 为 巨型 连通 分 量 ( GCC )。GCC 的 规模 通常 很 大 ， 此 时 
为 了 避免 遇 到 连接 不 存在 的 问题 ， 最 好 使 用 GCC， 而 不 是 整个 图 。 


有 时 图 的 两 个 部 分 是 互 连 的 ， 但 其 连接 是 如 此 地 微妙 ， 以 至 于 移 除 单条 边 后 图 就 被 分 开 了 。 
这 样 的 边 被 称 为 桥 。 

团 是 这 样 一 组 节点 的 集合 : 每 个 节点 都 与 集合 中 的 其 他 节点 直接 相连 。D’Artagnan 和 三 个 火 
枪手 就 组 成 了 一 个 团 , 包括 任何 奉行 “人 人 为 我 , 我 为 人 人 ”原则 的 组 合 也 一 样 。 我 们 称 图 中 最 
大 的 团 为 最 大 团 。 如 采 一 个 团 不 能 通过 向 其 中 添加 为 一 个 节点 而 扩大 ， 则 称 这 个 团 为 极 大 团 。 最 
大 团 一 定 是 极 大 团 ， 但 反 过 来 未 必 成 立 。 完 全 图 本 身 就 是 一 个 最 大 团 。 

星 形 图 是 这 样 一 组 节点 的 集合 : 集合 中 存在 一 个 节点 与 其 他 所 有 节点 相连 接 , 但 是 其 他 节点 
之 间 不 存在 连接 。 星 形 图 通常 存在 于 分 级 的 多 层次 系统 中 ( 例如 公司 、 军 事 机 构 和 互联 网 )。 


直接 与 节点 A 相连 接 的 一 组 节点 称 为 节点 A 的 邻 域 (A 的 6(A) )。 邻 域 是 雪 球 效应 的 关键 部 分 。 
雪 球 效应 是 一 种 数据 获取 技术 , 通过 随机 选择 的 种 子 节 点 跟踪 到 其 邻居 节点 , 进一步 到 达 邻 居 的 
邻居 节点 (二 度 邻 域 )， 并 不 断 重复 该 过 程 。 

节点 A 的 局 部 集聚 系数 (或 简称 为 集聚 系数 ) 是 A 的 邻 域 所 具有 的 边 数 CC(A) (不 包括 直接 与 
A 相连 的 边 ) 除 以 最 大 可 能 的 边 数 。 换 句 话 说 ,集聚 系数 是 去 除 节点 A 后 A 的 邻 域 的 密度 。 星 形 图 
中 任意 节点 的 集聚 系数 为 0。 完 全 图 中 任意 节点 的 集聚 系数 为 1。 可 以 把 CC(A) 看 作 G(A) 的 星 形 相 
似 度 或 是 其 完全 性 的 度量 。 

网 络 社区 是 这 样 一 组 节点 的 集合 : 集合 中 节点 互 连 的 边 数 远 大 于 穿 过 社区 边界 的 边 数 。 模 块 
度 (msE[-1/2, 1] ) 是 社区 结构 质量 的 度量 。 它 被 定义 为 社区 内 节点 的 互 连 边 数 比例 与 随机 情况 下 
的 边 数 比 例 之 差 。 高 模块 化 〈ms1l ) 表征 了 一 个 拥有 密集 和 清晰 可 见 社区 的 网 络 。 识 别 这 样 的 社 
区 可 能 是 网 络 数据 分 析 最 重要 的 结果 ( 具体 内 容 参 考 第 39 单 元 )。 



















































































































































































































































































中 心性 


中 心性 是 网 络 中 节点 重要 性 的 度量 。 有 多 种 类 型 的 中 心性 度量 ,它们 从 不 同方 面 对 节 点 的 重 
要 性 进行 了 衡量 。 为 了 方便 起 见 ， 中 心性 通常 被 缩放 到 0 ( 对 应 不 重要 的 外 围 节点 ) 和 1 ( 对 应 重 
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要 的 中 心 节 点 ) 之 间 。 
口 度 中 心性 
节点 A 的 度 中 心性 是 A 的 邻居 节点 个 数 ， 也 就 是 A 的 度 或 6(A) 的 大 小 。 可 以 通过 除 以 A 的 最 
大 可 能 邻居 数 n-1， 将 其 缩放 到 合适 的 范围 。 


口 接近 中 心性 
节点 A 的 接近 中 心性 是 其 他 所 有 节点 到 节点 A 的 平均 最 短路 径 长 度 Lss 的 倒数 : 


n—l 


2 pede 





Ces = 


中 介 中 间 性 
节点 A 的 中 介 中 心性 是 指 网 络 中 所 有 两 个 节点 之 间 的 最 短路 径 中 ， 经 过 A 点 的 路 径 数量 与 
最 短路 径 总 数量 之 比 。 


口 





口 特征 矢量 中 心性 
节点 A 的 特征 矢量 中 心性 被 定义 为 A 的 所 有 邻居 节点 的 特征 矢量 中 心性 的 加 权 和 ， 这 是 一 
个 递归 定义 : 


1 
i 吏 en CCB 


最 后 两 个 中 心性 度量 的 计算 代价 非常 大 ， 而 且 对 于 大 型 网 络 可 能 并 不 实用 。 








第 39 单元 
网 络 分 析 序 列 


掌握 了 适当 的 定义 和 公式 后 ， 我 们 接 下 来 开启 网 络 数据 分 析 的 宏伟 篇 章 。 
典型 的 网 络 分 析 序 列 包括 以 下 步 又。 


(1) 首先 ， 识 别离 散 实 体 以 及 实体 间 的 关系 。 实 体 转化 为 网 络 节点 ， 而 实体 间 的 关系 转化 为 
网 络 的 边 。 如 果 关 系 是 二 元 的 (例如 存在 和 不 存在 )， 就 可 以 直接 定义 出 网 络 的 边 。 如 果 
关系 不 是 二 元 的 ， 而 是 连续 的 或 离散 的 ， 可 以 将 它们 看 作 加 权 的 边 ， 或 者 只 将 值 等 于 或 
高 于 阔 值 的 关系 转换 为 未 加 权 的 边 。 后 一 种 转换 称 为 抽样 。 抽 样 闪 值 是 从 经 验 和 实用 的 
角度 来 选择 的 。 如 果 阔 值 太 高 ， 则 网 络 会 分 解 成 很 多 小 的 连通 量 ， 显 得 过 于 稀 朴 ; 如 果 
国 值 太 低 ， 网 络 就 会 失去 社区 结构 ， 变 得 混乱 。 
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(2) 计算 各 种 网 络 度 量 : 密度 、 分 量 的 数目 、GCC 的 大 小 、 直 径 、 中 心性 和 集聚 系数 等 。 
(3) 识别 网 络 社 区 。 如 果 网 络 最 终 是 模块 化 的 ， 就 可 以 给 社区 分 配 标签 ， 将 社区 替换 为 “ 超 
节点 ”， 并 在 导出 的 新 网 络 上 开展 研究 。 
(4) 最 后 ， 和 任何 其 他 数据 科学 实验 一 样 ， 都 要 对 结果 进行 解释 ， 并 生成 一 个 包含 许多 吸引 
眼球 的 图 片 的 报告 。 
networkx 模 块 几 乎 提供 了 你 开展 典型 网 络 研究 所 需要 的 一 切 , 只 有 一 个 例外 : 它 生成 的 图 片 
毫 无 吸引 力 , 坦率 地 讲 , 图 片 的 质量 相当 可 悲 。 为 了 得 到 更 佳 的 可 视 化 效果 , 可 以 使 用 Gephi (请 
参阅 第 40 单 元 第 2 小 节 )。 






































第 40 单元 
使 用 networkx 





networkx 模 块 包 仿 构建、 修改、 探索、 绘制 、 导 出 和 导入 网 络 的 基本 工具 。 它 支持 简单 图 、 
有 向 图 和 多 图 。 你 将 学 会 如 何 通 过 添加 和 删除 节点 、 边 以 及 属性 来 构建 和 修改 网 络 ， 如 何 计算 各 
种 网 络 度 量 ( 比如 中 心性 )， 以 及 如 何 探 索 网 络 社区 结构 。 


构建 和 修改 网 络 


我 们 利用 维基 百科 的 数据 "， 根 据 已 知 的 国际 陆地 边界 信息 ( 包括 其 长 度 信息 ) 来 构建 一 个 
关于 国家 的 网 络 ， 并 发 掘 该 网 络 包 含 的 信息 。 该 网 络 图 是 无 向 的 ， 不 包含 循环 和 平行 边 。 


import networkx as nx 
































borders = nx.Graph() 
not bordersl = nx.DiGraph() # 仅 作 为 参考 
not borders2 = nx.MultiGraph() # 仅 作为 参考 


可 以 通过 添加 或 删除 单个 节点 (或 单条 边 )， 甚 至 是 一 组 节点 (或 一 组 边 ) 来 修改 现 有 网 络 
图 。 当 某 个 节点 被 删除 时 ,与 其 相连 的 所 有 边 也 随 之 删除 。 当 某 条 边 被 添加 时 ， 边 的 端点 对 应 的 
节点 也 被 添加 到 图 中 ， 除 非 它们 已 经 存在 于 图 中 。 可 以 使 用 数字 或 字符 串 对 节点 进行 标记 : 


borders.add node("Zimbabwe") 

borders.add nodes from(["Lugandon", "Zambia", "Portugal", "Kuwait", 
"Colombia"]) 

borders.remove node("Lugandon") 

borders.add edge("Zambia", "Zimbabwe") 

borders.add edges from([("Vganda", "Rwanda"), ("Uganda", "Kenya"), 





QD en.wikipedia.org/wiki/List_of countries and territories by land borders 
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("Uganda", "South Sudan"), ("Uganda", "Tanzania"), 
("Uganda", "Democratic Republic of the Congo")]) 


当 所 有 领土 以 及 它们 之 间 的 连接 添加 完成 后 ， 你 将 看 到 一 幅 可 读 性 很 强 的 图 ， 如 下 所 示 。 


Eastilimor 
Papua New)Guinea 
Indonesia 


Brunei 





lanmar 
{fiadesh 
Honglkong do A 


pop Chi 


Akrotiri 3a.Dhekelia 


ET 日 


Equatonla 


2 
图 中 的 市 0 国家 的 陆地 边界 总 长 度 ， 节 点 的 不 同 颜色 对 应 不 同 的 网 络 社区 
(将 在 下 一 小 节 介绍 )。 


最 后 , 可 以 使 用 clear( ) 函数 删除 图 中 所 有 的 节点 和 边 , 不 过 你 不 太 可 能 会 经 常用 到 这 个 函数 。 
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探索 和 分 析 网 络 


使 用 networkx 进 行 网 络 分 析 和 探索 就 如 同调 用 几 个 函数 和 查看 几 个 属性 的 值 一 样 简单 。 下 
面 使 用 Len( ) 函数 返回 图 的 “长 度 ”( 即 图 的 节点 数 )。 鉴 于 本 书 多 次 调用 过 Python 的 内 置 函 数 
len()， 相 信 你 对 于 此 处 这 样 的 用 法 应 该 不 会 感到 惊讶 。 


len(borders) 

















实际 的 节点 列表 可 以 通过 nodes ( ) 函数 、node 属 性 和 edge 属 性 来 获得 ( 后 一 个 属性 也 包含 边 
的 字典 )。node 和 edge 这 两 个 属性 都 是 只 读 的 ， 不 能 通过 修改 它们 来 添加 边 或 节点 。( 即使 你 党 
试 修改 它们 ，networkx 也 不 会 保存 你 的 更 改 。) 边 的 列表 也 可 通过 函数 edges ( ) 来 获得 : 


borders.nodes () 




















今 ['Iran', 'Palestinian territories', 'Chad', 'Bulgaria', 'France', «...»] 
borders.node 


今 {f{'Iran': {'L': 5440.0}, 'Palestinian territories': {}, 
-=> 'Chad': {'L': 5968.0}, 'Bulgaria': {'L': 1808.0}, «...»} 


可 以 看 到 ,字典 给 出 了 节点 的 属性 〈 在 我 们 的 例子 中 ， 节 点 的 属性 是 陆地 边界 的 总 长 度 ): 


borders .edge 

















今 {'Iran': {'Nagorno-Karabakh Republic': {}, 'Turkey': {}, 'Pakistan': {}, 
今 "Afghanistan': {}, 'Iraq': {}, 'Turkmenistan': {}, 'Armenia': {}, 
今 "Azerbaijan': {}}, «...»} 


edge 属 性 是 一 个 字典 ， 每 个 节点 都 对 应 字典 的 一 个 条 目 。 边 的 属性 ， 比 如 “权重 ”， 也 包含 
在 字典 中 。 


borders.edges()[:5] 














今 [('Iran', 'Nagorno-Karabakh Republic'), ('Iran', 'Turkey'), 
> ('Iran', 'Pakistan'), ('Iran', 'Afghanistan'), ('Iran', 'Iraq')] 


可 以 通过 neighbors () 函数 获取 节点 的 邻居 列表 : 
borders.neighbors("Germany") 


今 ['Czech Republic', 'France', 'Netherlands, Kingdom of the', 'Denmark', 
> "Switzerland', 'Belgium', 'Netherlands', 'Luxembourg', 'Poland', 'Austria'] 


调用 函数 degree() 、indegree() 或 outdegree() 能 算出 节点 邻 域 的 长 度 ， 从 而 得 出 节点 的 
度 、 入 度 和 出 度 。 当 以 无 参数 的 方式 调用 这 些 函 数 时 ,它们 返回 由 节点 标签 索引 的 度数 字典 。 当 
使 用 节点 标签 作为 参数 调用 它们 时 ， 它 们 返回 该 节点 的 度数 。 
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borders.degree("Poland") 


»》 了 


borders.degree() 


{'Iran': 8, 'Nigeria': 4, 'Chad': 6, 'Bulgaria': 5, 'France': 14, 
'Lebanon': 2, 'Namibia': 4, «...»} 


下 面 我 们 可 以 看 一 下 哪个 国家 拥有 最 多 的 邻居 : 


degrees = pandas.DataFrame(list(borders.degree().items()), 
columns=("country", "degree")).set index("country") 
degrees.sort("degree").tail(4) 








> Country 

> Brazil 11 
>» Russia 14 
> France 14 


> People's Republic of China 17 


一 个 大 型 网 络 的 大 型 套件 





使 用 真正 的 大 型 网 络 对 于 我 们 来 说 并 非 少 见 。( 例如 ，Facebook 的 社交 网 络 图 有 
15.9 亿 个 节点 。 初 学 者 该 如 何 使 用 这 样 的 大 型 网 络 呢 ? ) 就 像 在 纯 Python 中 的 实现 
一 样 , networkx 并 不 是 以 高 性 能 著称 的 。 对 于 大 型 网 络 来 说 , 应 该 使 用 NetworKit， 


台 16 核 服务 器 上 ， 只 需 几 分 钟 就 能 完成 拥有 30 亿 条 边 的 网 络 图 的 社区 检测 。 "对 于 


G9 它 是 一 种 高 效 的 、 可 并 行 化 的 网 络 分 析 工 具 包 。NetworKit 的 开发 商 声 称 :“ 在 一 


vv 


community 模 块 而 言 ， 这 是 望尘莫及 的 。 最 重要 的 是 ，NetworKit 模 块 可 以 与 
matplotlib、scipy、numpy、pandas 和 networkx 相 结合 ， 这 进一步 增强 了 这 个 
模块 的 吸引 力 。 


有 向 图 不 存在 集聚 系数 的 定义 ， 但 必要 时 可 以 将 有 向 图 转换 为 无 向 图 。cLustering () 函数 





返回 包含 所 有 给 定 节 点 的 集聚 系数 构成 的 一 个 字典 : 


nx.clustering(not borders1) # CLustering() 函数 不 能 作用 在 有 向 图 上 1! 
nx.clustering(nx.Graph(not borders1)) # 需要 先 转换 为 无 向 图 ! 
nx.clustering(borders) 


{'Iran': 0.2857142857142857, 'Nigeria': 0.5, 'Chad': 0.4, 'Bulgaria': 0.4, 
'France': 0.12087912087912088, 'Lebanon': 1.0, 'Namibia': 0.5, «...»} 


nx.clustering(borders, "Lithuania") 


今 0.8333333333333334 





QD networkit.iti.kit.edu 
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函数 connected components() 、weakly connected components() 和 strong connec 
ted_components() 从 图 中 返回 各 种 连通 分 量 ( 表示 为 节点 的 标签 列表 ) 的 列表 生成 器 。 可 以 在 
迭代 器 表达 式 〈 for 循 环 或 列表 解析 ) 中 使 用 生成 器 ， 或 者 使 用 内 置 的 List () 函数 将 其 转换 为 列 
表 。 使 用 函数 subgraph(G,n) 可 以 得 到 由 图 6 中 节点 列表 n 定 义 的 子 图 。 另 外 ， 也 可 以 使 用 
connected_component_subgraphs ( ) 的 一 系列 函数 等 来 计算 连通 分 量 ,， 并 将 结果 作为 图 的 列表 
生成 融 : 


list(nx.weakly_connected components(borders)) ## 此 和 揣 代码 不 能 运行 ! 
list(nx.connected components (borders)) # 此 向 代码 可 以 运行 | 














今 [{'Iran', 'Chad', 'Bulgaria', 'Latvia', 'France', 'Western Sahara', «...»}] 
[len(x) for x in nx.connected component subgraphs (borders)] 


今 [179, 2] 


Gephi 它 


Gephi 是 “各 种 网 络 和 复杂 系统 的 交互 式 可 视 化 探索 平台 ””， 有 人 将 它 称 为 “网 络 
分 析 的 和 画笔"。 虽 然 networkx 具 有 自己 的 图 形 可 视 化 支持 (通过 matplotlib 的 方 
式 ， 详情 参阅 第 41 单 元) 但 我 更 喜欢 使 用 Gephi ， 因 为 它 用 途 广泛 ， 而 且 具有 即时 
反馈 的 功能 。 





所 有 计算 中 心性 的 函数 都 返回 一 个 以 节点 标签 为 索引 的 中 心性 字典 或 者 单个 节点 的 中 心性 。 
这 些 字典 是 用 于 构建 pandas 数 据 ffame 和 具有 索引 的 series 的 极 佳 组 件 。 下 面 代 码 中 的 注释 给 出 了 
不 同 中 心性 中 具有 最 大 值 的 国家 : 


nx.degree centrality(borders) # 中 国 

nx.in degree centrality(borders) 
nx.out degree centrality(borders) 

nx.closeness centrality(borders) # 法 国 


nx.betweenness centrality(borders) # 法 国 
nx.eigenvector_centrality(borders) # 俄罗斯 





























管理 属性 














networkx 使 用 字典 实现 图 及 其 节点 和 边 的 属性 。 图 具有 节点 的 字典 接口 , 节点 具有 其 边 的 字 
典 接口 ， 边 具有 其 属性 的 字典 接口 。 你 可 以 将 属性 名 称 和 值 作为 可 选 参 数 传 递 给 函数 
add node().、 add nodes from()、 add edge() 和 add edges from(): 











人 # 边 属 性 
borders["Germany"]["Poland"]["weight"] = 456.0 





GD gephi.org 
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# 节点 属性 
borders.node["Germany"]["area"] = 357168 
borders.add node("Penguinia", area=14000000) 





使 用 可 选 参数 data=True 调 用 nodes() 和 edges() 函数 时 ， 它 们 分 别 返 回 包含 了 所 有 属性 的 
全 部 节点 和 边 的 列表 : 


borders.nodes (data=True) 
[«...», ('Germany', {'area': 357168}), «...»] 


borders.edges (data=True) 


[('Uganda', 'Rwanda', {'weight': 169.0}), 
('Uganda', 'Kenya', {'weight': 933.0}), 
('Uganda', 'South Sudan', {'weight': 435.0}), «...»] 


团 和 社区 结构 


函数 find_ctLiques() 和 isotates() 能 检测 出 图 中 最 大 的 团 和 孤立 节点 〈 即 零度 节点 )。E 
数 find_cliques() 不 能 直接 用 于 有 向 图 (有 向 图 应 首先 强制 转换 为 无 向 图 ), 该 函数 返回 一 个 
点 列表 的 生成 器 ， 如 下 所 示 : 

nx.find cliques(not borders1) # 不 能 直接 用 于 有 向 图 | 


nx.find cliques(nx.Graph(not borders1)) # 转换 为 无 向 图 才能 正常 运行 
list(nx.find cliques(borders)) 





十 国 








[['Iran', 'Nagorno-Karabakh Republic', 'Armenia', 'Azerbaijan'], 
['Iran', 'Afghanistan', 'Pakistan'], «...»] 


nx.isolates (borders) 

['Penguinia'] 

用 于 社区 检测 的 community 模 块 并 不 包含 在 Anaconda 发 行 版 中 ,必须 单独 安装 ,而 且 该 模块 
不 支持 有 问 图 。 


函数 best_partition() 使 用 Louvain 方 法 并 返回 社区 的 划分 结果 , 划分 结果 是 一 个 以 节点 
标签 作为 索引 的 字典 ， 并 用 不 同 的 数字 序号 区 分 不 同 的 社区 。 隐 数 modularity() 给 出 社区 的 
模块 度 : 


import community 
partition = community.best partition(borders) 





























{'Uganda': 0, 'Zambia': 1, 'Portugal': 2, 'Bulgaria': 2, «...»} 
community.modularity(partition, borders) 


>» 0.7462013020754683 
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如 果 模 块 度 太 低 〈 远 小 于 0.5 )， 网 络 就 不 存在 清晰 的 社区 结构 ， 至 少 你 不 能 依赖 给 出 的 划分 











结 
输入 和 输出 
networkx 具 有 一 系列 从 文件 读 取 网 络 数据 并 将 数据 写 入 文件 的 读 写 函数 ,我 们 只 需要 负责 打 
开 和 关闭 文件 ( 必要 时 负责 创建 文件 )。 某 些 函 数 要 求 文件 以 二 进 制 模式 打开 。 通 过 下 表 可 以 了 
解 其 中 的 部 分 函数 。 
表 4 ” networkx 的 一 些 输入 和 输出 函数 

类 型 读 写 文件 后 组 

邻接 列表 read adjlist(f) write adjlist(G, f) 无 特定 后 级 

Edge list read edgelist(f) write edgelist(G, f) 无 特定 后 级 

GML read gml (f) write gml(G, f) .gml 

GraphML read graphml (f) write graphml (G, f) .graphml 

Pajek read pajek(f) write pajek(G, f) .net 


with open("borders.graphml", "wb") as netfile: 
nx.write pajek(borders, netfile) 
with open("file.net", "rb") as netfile: 


borders 


= Nx.read pajek(netfile) 


不 是 任意 格式 的 文件 都 能 支持 所 有 网 络 相 关 的 特性 。 你 可 以 在 Gephi 网 站 "上 查看 关于 不 同文 
件 格式 和 网 络 特性 的 更 多 信息 ， 了 解 这 些 内 容 有 助 于 为 你 的 图 选择 正确 的 输出 格式 ! 


轮 到 你 了 

















网 络 分 析 是 一 项 极 具 感染 性 的 工作 。 学 会 网 络 分 析 后 ,随处 都 可 以 找到 网 络 分 析 的 影子 , 其 


至 是 在 莎士比亚 的 作品 中 。” 网 络 、 中 心性 和 社区 方面 的 思维 方式 给 你 增加 了 男 一 个 层次 的 数据 








分 析 技 能 ， 因 有 


比 不 要 犹 殉 ， 开 始 下 面 的 强化 练习 吧 。 


口 中 心性 的 相关 问题 * 
从 斯 坦 福 大 网 络 数 据 集 ”( 由 J. Leskovec 和 A. Krevl 编 写 ) 中 下 载 Epinions.com 网 站 用 户 的 
社交 网 络 图 ， 并 提取 出 规模 排名 第 十 的 社区 。 编 写 一 个 程序 ， 计 算 并 显示 本 章 中 提 到 的 
所 有 网 络 中 心性 度量 之 间 的 两 两 相关 性 ( 加 入 集聚 系数 可 以 使 问题 变 得 更 加 有 趣 )。 建 议 


你 使 用 























pandas 的 frame 来 存储 所 有 中 心性 。 你 可 能 需要 阅读 第 47 单 元 第 2 小 节 来 了 解 如 何 








QD gephi.org/users/supported-graph-formats/ 


© www.slideshare.net/ DmitryZinoviev/desdemona-52994413 


@) snap.stanford.edu/data/soc-Epinions1.html 
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使 用 pandas 计 算 相 关 性 。 
是 否 存在 强 相 关 的 一 对 中 心性 ? 
口 莎士比亚 作品 ** 


可 以 从 麻 省 理工 学 院 " 获 得 完整 的 威廉 :莎士比亚 作品 。 编写 一 个 程序 , 创建 出 莎士比亚 的 
所 有 戏剧 以 及 100 个 最 常用 的 非 停止 词组 成 的 网 络 。 如 果 词 干 出 现在 戏剧 中 ， 词 干 节 点 就 





和 戏剧 节点 相连 ， 边 的 权重 等 于 该 词 干 的 使 用 





用 community 模 块 给 出 社区 模块 度 和 成 员 节点 
出 的 社区 划分 是 否 有 意义 ? 


根据 你 对 莎士比亚 的 了 解 ， 分 析 程 序 给 








口 边界 网 络 *** 





颜色 )。 





GD shakespeare.mit.edu 





这 些 属 











频率 。 接 下 来 用 程序 识别 网 络 社区 ， 并 使 


























使 用 维基 百科 数据 、networkx 和 Gephi 重 新 建立 国家 和 边界 的 网 络 ， 要 求 包含 节点 大 小 
和 社区 的 信息 ( 给 节点 分 配 相应 的 属性 ， 








盟 性 可 以 在 Gephi 中 用 于 设置 节点 的 大 小 和 





“一 方面 ， 我 在 为 自己 策划 (plot"” ); 另 一 方面 ， 对 于 别人 的 策划 ， 我 将 计 就 计 
(counterplot )。” 特 雷 瑟 姆 神秘 地 回答 。 
一 一 英国 历史 小 说 家 William Harrison Ainsworth 
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绘制 数据 是 任何 探索 性 或 预测 性 数据 分 析 的 重要 组 成 部 分 ,甚至 可 能 是 报告 撰写 中 最 重要 的 部 
分 。 坦 率 地 说 ， 不 会 有 人 愿意 看 没有 图 片 的 报告 ， 哪 怕 是 毫 不 相关 的 图 ， 如 同 这 幅 优美 的 正弦 波 

















sin(Z) 















































可 编程 的 绘图 方法 主要 有 三 种 。 我 们 从 一 张 空白 画布 开始 进行 增 量 绘图 , 然后 使 用 专门 的 函 
数 逐 步 添 加 图 形 、 坐 标 轴 、 标 签 和 图 例 等 。 最后， 显示 出 所 绘制 的 图 像 并 将 其 保存 到 文件 中 ( 保 
存 操作 是 可 选 的 )。 增 量 绘图 工具 的 例子 包括 R 语 言 函 数 plot() 、Python 的 pypLot 模 块 以 及 
gnuplot 的 命令 行 绘图 程序 。 

集成 绘图 系统 将 描述 图 形 、 图 表 、 坐 标 轴 、 标 签 和 图 例 等 的 所 有 必要 参数 传递 给 绘图 函数 。 
我 们 可 以 实现 即时 绘制 、 装 饰 并 保存 最 终 绘图 。R 语 言 的 xypLot ( ) 函数 是 集成 绘图 工具 的 一 个 
例子 。 

最 后 , 图 层 工 具 用 于 展示 要 绘制 的 内 容 、 如 何 绘制 以 及 可 展示 其 他 任意 特征 的 虚拟 “图 层 ”。 
我 们 可 以 根据 需要 给 “plot” 对 象 添加 更 多 图 层 。R 语 言 函 数 ggplot( ) 是 分 层 绘图 工具 的 一 个 例 
子 。( 为 了 兼顾 美学 ，Python 的 matplotlib 模 块 提供 了 ggplot 的 绘图 风格 。) 

本 章 中 ， 你 将 看 到 如 何 使 用 pypLot 进 行 增 量 绘图 。 















































Jplot 既 有 “绘图 ”之 意 ， 又 有 “策划 ”之 意 。 一 一 编者 注 
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第 41 单元 
使 用 PyPlot 进行 基本 绘图 


matpLotLib 模 块 ( 更 明确 地 ,也 就 是 其 子 模块 pyplot ) 提供 了 针对 numpy 和 pandas 的 绘图 。 

通过 调用 NIAAA 的 酒精 监控 报告 来 开始 我 们 的 试验 。 在 第 31 单 元 我 们 已 经 将 该 报告 转换 为 
frame， 接 下 来 我 们 将 绘制 各 个 州 每 种 酒 的 消费 量 。 可 惜 的 是 ， 增 量 绘图 系统 没有 一 个 能 完成 所 
有 绘图 的 函数 ， 让 我 们 来 看 一 个 完整 的 例子 : 





















































pyplot-images.py 
import matplotlib, matplotlib.pyplot as plt 
import pickle, pandas as pd 


# 在 此 之 前 NIAAA frame 已 完成 了 pickle 操 作 

alco = pickle.load(open("alco.pickle", "rb")) 
del alco["Total"] 

columns, years = alco.unstack().columns.levels 


# 直接 从 文件 中 读 出 州 的 缩 略语 
states = pd.read csv( 

"states.csv", 

names=("State", "Standard", "Postal", "Capital")) 
states.set index("State", inplace=True) 


# 将 酒 的 销量 按 2009 年 的 统计 数据 排序 
frames = [pd.merge(alco[column] .unstack(), states, 
left index=True, right index=True).sort values(2009) 
for column in columns] 


## 有 多 少年 的 数据 ? 

span = max(years) - min(years) + 1 

代码 首先 导入 了 所 有 必要 的 模块 和 frame。 然 后 将 NIAAA 数 据 和 州 名 的 缩写 组 合成 一 个 
frame， 并 通过 酒 的 种 类 将 其 分 成 三 个 单独 的 frame。 下 面 的 代码 片段 负责 绘图 。 

















pyplot-images.py 
# 选择 一 种 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


STEP = 5 
# 一 个 frame 绘 制 在 一 幅 子 图 中 
for pos, (draw, style, column, frame) in enumerate(zip( 
© (plt.contourf, plt.contour, plt.imshow), 
(plt.cm.autumn, plt.cm.cool, plt.cm.spring), 
columns, frames)): 
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# 选中 第 2 行 第 2 列 的 子 图 


© plt.subplot(2, 2, pos + 1) 
# 绘制 frame 

© draw(frame[frame.columns[:span]], cmap=style, aspect="auto") 
## 加 入 图 饰 

@ plt.colorbar() 


plt.title(column) 

plt.xlabel ("Year") 

plt.xticks(range(0, span, STEP), frame.columns[:span:STEP]) 

plt.yticks(range(0, frame.shape[0], STEP), frame.Postal[::STEP]) 

plt.xticks(rotation=-17) 

函数 imshow() 、contour() 和 contourf() (标记 为 @ 处 ) 分 别 将 矩阵 显示 为 图 像 、 等 高 线 

图 和 填充 等 高 线 图 。 不 要 在 同一 个 子 图 中 使 用 这 三 个 函数 (或 任何 其 他 绘图 函数 )， 因 为 它们 会 
在 先前 绘制 的 图 上 又 加 新 的 绘图 ， 除 非 这 正 是 你 想 要 的 。 可 选 参数 cmap ( 标记 为 @ 处 ) 为 绘图 指 
定 了 一 个 预制 调 色 板 ( 彩色 图 )。 


可 以 将 相同 或 不 同类 型 的 几 个 子 图 包装 成 一 个 主 图 (标记 为 @ 人 处 )。 隐 数 subplot (n,m， 
number) 将 主 图 划分 为 n 个 虚拟 行 和 m 个 虚拟 列 ， 并 用 number 选 择 子 图 编号 。 子 图 从 第 1 列 开始 先 
逐 列 编号 ， 再 逐 行 编号 。( 左上 角 的 子 图 为 1， 右 侧 的 下 一 子 图 为 2， 以 此 类 推 。 ) 所 有 绘图 命令 只 
影响 最 新 选中 的 子 图 。 

























































































请 注意 ， 图 像 的 原点 在 左上 角 ，Y 轴 是 指向 下 的 ( 这 是 计算 机 图 形 学 中 的 绘图 方式 ), 但 其 
他 所 有 图 形 的 原点 均 位 于 左下 角 ， 而 Y 轴 是 指向 上 的 ( 这 是 数学 中 的 绘图 方式 )。 男 外 ， 具 有 相 





同 数据 的 图 像 和 等 高 线 图 在 默认 情况 下 具有 不 同 的 纵横 比 , 不 过 你 可 以 通过 传递 aspect="auto" 
选项 使 它们 看 起 来 比较 接近 。 

函数 colorbar()、title()、xlabel()、ylabel()、grid()、xticks()、yticks() 和 
tick_params() (标记 为 @ 处 ) 可 以 将 相应 的 装饰 添加 到 绘图 中 。( 我 们 将 在 第 43 单 元 中 重新 考 
察 这 些 函 数 。) grid( ) 函数 实际 上 实现 了 网 格 的 打开 和 关闭 ， 所 以 图 形 是 否 具有 网 格 取 决 于 你 起 
初 是 否 使 用 了 grid() 函数 ， 而 这 反 过 来 又 受到 绘图 风格 的 控制 。 


函数 tight_ Layout() 可 以 调整 子 图 ， 使 它们 看 起 来 美观 和 紧凑 。 让 我 们 来 看 看 绘图 的 
ZE 


玉木: 












































pyplot-images.py 

plt.tight layout() 
plt.savefig("../images/pyplot-all.pdf") 
#plt. show() 
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函数 savefig () 将 当前 图 形 保存 到 文件 中 。 该 函数 的 第 一 个 参数 是 文件 名 或 已 打开 文件 的 句 
柄 。 如 果 传 递 的 是 文件 名 ，savefig() 会 尝试 通过 文件 的 扩展 名 猜测 图 像 格 式 。 该 函数 支持 多 种 
流行 的 图 像 文件 格式 ， 但 GIF 除外 。 





函数 show( ) 将 绘图 显示 在 
独 调 用 cLf( ) 函数 。 


了 解 其 他 绘图 类 型 





屏幕 上 。 它 同时 也 清空 了 画布 ， 但 如 果 你 只 想 清空 画布 ， 那 就 单 





除了 等 高 线 和 图 像 ，pyptot 还 支持 多 种 更 为 传统 的 绘图 类 型 : 条 形 图 、 箱 形 图 、 直 方 图 、 


饼 图 、 线 图 、 对 数 和 双 对 数 图 、 


散 点 图 、 极 坐标 图 、 步 阶 图， 等 等 。 在 线 的 pyplot 图 库 " 提 供 了 





许多 示例 ， 下 表 列 出 了 pyplot 的 许多 绘图 函数 。 


QD matplotlib.org/galleryhtml 
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表 5 ”pyplot 的 一 些 绘图 类 型 











































































































绘图 类 型 范 数 

竖 直 条 形 图 bar() 
水 平 条 形 名 barh() 
“有 须 ” 的 箱 形 图 boxplot() 
误差 条 形 图 errorbar() 
年 方 图 〈 垂直 或 水 平 ) hist() 

双 对 数 图 loglog() 
X 轴 对 数 医 semilogx() 
Y 轴 对 数 医 semilogy() 
饼 医 pie() 

线 医 plot() 

日 期 图 plot dates() 
极 坐标 图 polar() 
散 点 图 ( 点 的 大 小 和 颜色 可 以 控制 ) scatter() 
步 阶 图 step() 
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你 可 以 用 pyptLot 实 现 对 绘图 全 方面 的 控制 。 

可 以 使 用 函数 xscale(scale) 和 yscale(scale) 来 设置 和 更 改 轴 的 刻度 ( "Linear" 和 
"Log" )， 可 以 使 用 函数 xLim(xmin，xmax) 和 yimim(ymin，ymax) 来 设置 和 更 改 轴 的 上 下 限 。 
可 以 设置 和 更 改 字体 、 图 形 和 背景 颜色 ， 以 及 字体 和 点 的 大 小 和 样式 。 

还 可 以 使 用 annotate() 添 加 注释 , 用 arrow () 添 加 箭头 , 用 Legend() 添 加 图 例 。 通常 来 说 ， 
要 了 解 完 整 的 装饰 函数 及 其 参数 列表 ,需要 参阅 pyplot 文 档 , 但 是 目前 你 至 少 可 以 将 一 些 篆 头 、 
注释 和 图 例 添加 到 你 已 经 熟悉 的 NIAAA 图 中 : 
































pyplot-legend.py 
import matplotlib, matplotlib.pyplot as plt 
import pickle, pandas as pd 


# 在 此 之 前 NIAAA frame 已 完成 了 pickLe 操 作 
alco = pickle.load(open("alco.pickle", "rb")) 


# 选择 合适 的 数据 

BEVERAGE = "Beer" 

years = alco.index.levels[1] 

states = ("New Hampshire", "Colorado", "Utah") 
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人 # 选择 一 个 优美 的 绘图 样式 
plt.xkcd() 
matplotlib,.style.use("ggplot") 


# 绘制 图 表 
for state in states : 
ydata = alco.ix[state] [BEVERAGE] 
pLt.pLot(years，ydata，"-0") 
## 添加 带 前 头 的 注释 
plt.annotate(s="Peak", xy=(ydata.argmax(), ydata.max()), 
xytext=(ydata.argmax() + 0.5, ydata.max() + 0.1), 
arrowprops={"facecolor": "black", "shrink": 0.2}) 


# 添加 标签 和 图 例 

plt.ylabel (BEVERAGE + " consumption") 
plt.title("And now In xkcd...") 
plt.legend(states) 


plt.savefig("../images/pyplot-legend-xkcd.pdf") 


这 里 显示 的 三 线 图 表明 了 三 个 州 的 啤酒 消费 动态 (实际 上 ， 这 三 个 州 就 是 啤酒 消费 量 最 多 、 
中 等 和 最 低 的 州 )。 
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关于 Unicode 的 说 明 





更 改 默认 字体 ， 具 体 的 方法 是 将 函数 调用 matplotlib.rc("font",，family 


四 如 果 你 的 绘图 包含 Unicode 字 符 ( 即 非 拉 丁字 符 )， 那 么 你 可 能 需要 在 绘制 文本 之 前 
="Arial") 添 加 到 绘图 脚本 的 第 一 行 。 
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最 后 ， 可 以 使 用 函数 xkcd ( ) 将 图 案 的 风格 改 为 流行 的 xkcd” Web 漫 画 风 格 。( 该 函数 仅 对 在 
调用 它 之 后 添加 的 绘图 元 素 产 生 影响 。 ) 由 于 某 些 原因 ， 我 们 无 法 将 图 形 保存 为 PostScript 文 件 ， 
但 其 他 格式 的 文件 都 是 正常 的 。 尽 管 如 此 ， 你 应 该 避免 在 官方 的 演示 中 包含 xkcd 样 式 的 绘图 ， 
为 它们 看 起 来 好 像 是 出 自 醉 汉 之 手 (参见 下 图 ), 不 管 怎样 , 这 个 演示 本 身 就 是 关于 酒精 消费 量 的 。 
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pyplot 模 块 本 身 已 经 非常 强大 了 ， 与 pandas 相 结合 后 还 会 更 加 出 色 ， 下 面 我 们 就 来 见识 一 下 。 


加 四 -| 第 44 单 元 \ 
用 pandas 绘图 





pandas 的 frame 和 series 都 支持 pypLot 绘 图 。 使 用 无 参数 的 方式 调用 ptLot ( ) 函数 时 , 可 以 绘制 
series 或 所 有 frame 列 的 具有 标签 的 线 图 。 如 果 调 用 plot ( ) 时 指定 了 可 选 参数 x 和 y， 则 函数 将 相应 
地 绘制 列 x 与 列 y。 

通过 调整 可 选 参数 kind，pandas 还 可 以 支持 其 他 类 型 的 绘图 。 参 数 的 允许 值 如 下 : 绘制 条 
形 图 的 "bar" 和 "barh"、 直 方 图 的 "hist"、 箱 形 图 的 "box"、 密 度 图 的 "kde"、 面 积 图 的 "area"、 
散 点 图 的 "scatter"、 六 边 形 图 形 的 "hexbin"， 以 及 饼 图 的 "pie"。 所 有 的 绘图 都 可 以 进行 各 种 
装饰 ， 例 如 图 例 、 色 彩 条 、 可 控 点 的 尺寸 (选项 s ) 和 颜色 ( 选项 c )。 




















人 xkcd.com 
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举 个 例子 ， 让 我 们 绘制 整个 NIAAA 观 察 期 间 新 罕 布什 尔 州 的 葡萄 酒 与 啤酒 的 消费 量 ， 并 根 
据 年 份 对 每 个 数据 点 进行 着 色 : 





scatter-plot.py 


import matplotlib, matplotlib.pyplot as pLt 
import pickle, pandas as pd 


# 在 此 之 前 NIAAA frame 已 完成 了 pickle 操 作 
alco = pickle.load(open("alco.pickle", "rb")) 


# 选择 一 个 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


# 绘制 散 点 图 

STATE = "New Hampshire" 

statedata = alco.ix[STATE].reset index() 

statedata.plot.scatter("Beer", "Wine", c="Year", s=100, cmap=plt.cm.autumn) 


plt.title("%s; From Beer to Wine In 32 Years" % STATE) 
plt.savefig("../images/scatter-plot.pdf") 


从 绘制 的 图 中 不 难看 出 , 在 32 年 的 观察 期 中 , 新 罕 布什 尔 州 经历 了 从 喝 啤 酒 到 喝 和 葡萄 酒 的 转 
变 。 但 愿 这 样 的 过 程 并 不 痛苦 ， 也 没有 造成 人 口 减 少 。 

我 们 通过 子 模块 pandas ,toots.pLotting 来 结束 对 绘图 部 分 的 介绍 。 该 模块 具有 用 于 绘制 
安德鲁 斯 曲线 andrews_curves() 、 灌 后 图 Lag_pLot() 和 自 相 关 autocorreLation plot() 的 工 
具 。 但 更 重要 的 是 ，pandas .tootLs.pLotting 具 有 用 于 散 点 矩阵 的 工具 。 散 点 矩阵 是 一 个 非常 
优秀 的 探索 数据 的 工具 ， 它 对 应 的 函数 实现 是 scatter_matrix() ， 该 函数 能 显示 主 对 角 线 中 每 
列 数据 的 直方 图 以 及 所 有 其 他 和 矩阵 中 任意 两 列 的 双 变 量 散 点 图 。 
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scatter-matrix.py 
from pandas.tools.plotting import scatter matrix 


import matplotlib, matplotlib.pyplot as plt 
import pickle, pandas as pd 


# 在 此 之 前 NIAAA frame 已 完成 了 pickle 操 作 
alco = pickle.load(open("alco.pickle", "rb")) 


# 选择 一 个 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


# 绘制 散 点 和 矩阵 
STATE = "New Hampshire" 
statedata = alco.ix[STATE].reset index() 
scatter matrix(statedata[["Wine", "Beer", "Spirits"]], 
s=120, c=statedata["Year"], cmap=plt.cm.autumn) 


plt.tight layout() 
plt.savefig(",./images/scatter-matrix.pdf") 


我 们 再 次 对 新 罕 布 什 尔 州 当 地 人 的 饮酒 习惯 进行 分 析 。 这 一 次 , 我 们 将 32 年 记录 中 每 年 三 种 
酒 的 六 对 两 两 组 合同 时 绘制 在 一 幅 图 中 : 











0.8- - 
0.75 - = 
d 0.7- 下 9 0 
三 0.65- - 
三 。 。 
0.6- - 8 . 8@e 
0.55 - BS s 上 e e 
. . ® 二 . 
0.5 - 图 辑 - eeo8 3 四 
2.2 - 昌 - ®. 
. . 
2.1- 
5 2.0- op @ @ © ©。 . 名 
由 
ee ee. 
m1.9-% a - ee © 
. 昌 
酸 四 
1.7- - - 加 国 
， 一 ' 1 1 和 1 ' "I 
0 : 
2.8- = 站 
2.6 - 2 - @ 
中 [2 © 
二 24- vi - . .| . 
'S 2.2- . = 下 
J @ © 
2.0 -5 - ee ee 
1.8- | | 
1 
© nm oo nm oo nmn oo mnm Fr o 9 [= 口 N © o oo nN 十 0 o 
加 站 站 全 可 口 SN nN N dN NN Nn 
Wine Beer Spirits 


轮 到 你 了 


数据 的 绘制 ( 以 及 更 一 般 的 数据 可 视 化 ) 并 非 徒劳 的 练习 。 不 必 说 一 图 胜 千 言 了 ， 在 数据 科 
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学 中 , 一 幅 图 可 能 表示 数 百 万 甚至 数 十 亿 的 数值 观测 。 数 据 可 视 化 为 你 提供 了 强大 的 工具 ， 既 可 








口 美国 派 * 
编写 一 个 程序 , 将 美国 的 所 有 州 按 首 字母 分 组 , 并 用 一 个 饼 图 显示 分 组 结 











用 于 探索 性 的 工作 〈 给 自己 看 )， 也 可 用 于 数据 的 展示 〈 给 同事 和 数据 赞助 者 看 )。 





或 保存 为 PDF 


文件 。 为 了 完成 该 项 目 ， 你 需要 用 到 州 的 名 称 或 其 缩写 的 列表 ， 这 个 列表 可 以 从 命名 网 


站 获取 "。 
口 加 州 的 人 口 ** 


编写 一 个 程序 ,使 用 美国 人 口 普 查 局 的 数据 "来 显示 2001 年 至 2009 年 间 加 州 人 口 ( 相对 于 




















美国 总 人 口 ) 的 变化 规律 。 








QD www.stateabbreviations.us 


© www.census.gov/popest/data/historical/2000s/vintage 2009/state.html 


我 不 得 不 将 这 些 大 量 的 统计 数据 缩减 为 少量 显著 的 事实 。 对 我 来 说 , 统计 数据 和 图 
片 实在 是 太 多 了 。 
一 一 美国 作家 、 山 默 大 师 马 克 … 吐 温 


概率 与 统计 











概率 论 和 统计 学 的 研究 对 象 是 随机 现象 , 主要 是 随机 抽样 形式 的 随机 现象 , 比如 随机 数 和 随 

概率 论 关 注 随 机 样本 的 来 源 和 产生 。 我 们 通过 适当 的 概率 分 布 得 到 随机 样本 , 并 将 它们 用 于 : 
口 模拟 合成 原始 数据 ， 并 用 于 模型 测试 〈 就 像 我 们 在 第 30 单 元 中 所 做 的 ) 

口 将 原始 数据 分 解 成 测试 集 和 训练 集 ( 参见 第 48 单 元 ) 
口 支持 随机 机 器 学 习 算 法 〈 比如 第 51 单 元 中 的 随机 决策 森林 ) 

男 一 方面 , 统计 学 则 主要 研究 已 收集 的 随机 样本 的 属性 。 实验 的 原始 数据 几乎 总 是 具有 不 确 
定性 和 不 可 预测 性 ,我们 将 使 用 各 种 统计 度量 来 描述 因 变量 的 观测 值 以 及 因 变 量 和 自 变 量 之 间 的 
相互 作用 。 

概率 论 和 统计 学 都 是 具有 丰富 内 涵 和 外 延 的 数学 领域 。 要 学 习 它们 的 话 , 不 能 只 阅读 一 本 参 
考 书 中 的 一 个 章节 。 事实 上 , 你 可 能 已 经 对 概率 论 和 统计 学 有 了 一 定 的 了 解 。 本 书 的 这 部 分 内 容 
只 是 对 关键 概念 的 简单 回顾 和 总 结 。 我 们 首先 回顾 一 些 概率 理论 , 进而 给 出 各 种 统计 度量 的 数学 
定义 ， 最 后 用 Python 的 方式 计算 它们 。 





















































/ 第 45 单 元 \ 





回顾 概率 分 布 








概率 分 布 为 每 个 可 能 的 随机 数 ( 离散 分 布 ) 或 随机 数 的 取 值 范围 ( 连续 分 布 ) 分 配 一 个 概率 。 
换 句 话说 ， 它 告诉 我 们 ， 与 其 他 事件 相 比 ， 某 些 事件 是 否 更 有 可 能 出 现 。 常 见 的 概率 分 布 包括 均 
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匀 分 布 (连续 和 离散 )、 正 态 分布 (连续 ) 和 二 项 分 布 (离散 )。 


可 以 通过 概率 质量 函数 (PMF ， 用 于 离散 分 布 ) 或 概率 密度 
指定 概率 分 布 。 ee 量 取得 某 个 给 定 值 的 相对 可 能 性 ，PMF 给 
常见 的 概率 分 布 的 PDF ( 顶 上 一 行 ) 和 PMF (底下 一 行 )。( 无 


于 某 个 值 的 概率 。 下 图 给 出 了 一 





函数 (PDF， 用 于 连续 分 布 ) 来 
给 出 了 离散 随机 变量 和 拉 


Normal 


-1.0 -05 
Binomial, n=4, p=0.5 


疑 ， 这 些 图 是 用 pyplot 绘 制 的 ， 请 参考 第 41 单 元 )。 
Be Continuous uniform 
2.0= 
1.0- 
0.8 | 
0.6- 
1.0- 
0.4- 
i 0.5 
0 0.0- 
-10 -0.5 0.0 05 1.0 
040s ‘Binomial, n=11, p=0.9, 
0.35 
0.30- 
0.25 
0.20- 
GS 0.15- 
0.10- a 
0.05 - 和 
0.007 ee Da) 
4 6 7 8 9 1 二， 了 
我 们 来 简单 看 一 下 几 种 最 有 趣 的 概率 分 布 类 型 。 
均匀 分 布 
均匀 分 布 的 所 有 结果 具有 相同 的 可 能 








。 对 于 一 个 数值 类 型 的 随机 变量 来 说 , 如 果 只 有 其 取 











值 范围 是 已 知 的 ， 我 们 通常 就 使 用 均匀 分 布 来 表示 该 随机 变量 。 


正 态 分 布 





正 态 分 布 也 称 为 高 斯 分 布 或 钟 形 曲线 。 如 果 一 个 实数 随机 变量 的 分 布 本 身 未 知 , 但 分 布 的 平 











均值 和 标准 差 是 已 知 的 ， 


二 项 分 布 





就 可 以 用 正 态 分 布 来 表示 该 随机 变量 。 


二 项 分 布 是 n > 0 个 独立 二 元 试验 (比如 “投掷 硬币 ”) 序列 中 成 功 次 数 的 概率 分 布 ， 其 中 单 
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次 实验 成 功 ( 掷 出 “头像 ”) 的 概率 为 0 入 p 码 1。 成 功 次 数 的 期 望 值 为 xp。 当 = 1 时 ， 二 项 分 布 
变 为 伯 努 利 分 布 。 

如 果 成 功 概率 p 为 0.5， 且 独立 重复 试验 次 数 为 无 限 次 ， 对 应 的 二 项 分 布 随机 变量 实际 上 就 是 
一 个 正 态 分 布 变量 。 换 名 话说 ， 正 态 分 布 是 无 限 次 等 概率 二 元 试验 的 累积 结果 。 


























长 尾 
四 一 些 概 率 分 布 ( 例 如 帕 累 托 分 布 ， 又 称 为 Zipf 分 布 或 震 律 分 布 ) 具有 一 条 “长 尾 ”， 





即 分 布 的 PDF 无 限 向 右 或 向 左 延伸 ， 类似 一 个 身体 隆起 并 带 有 长 尾 的 生物 。 长 尾 意 
味 着 远离 均值 的 样本 依然 具有 非 零 的 概率 ， 这 样 的 样本 可 能 会 出 现在 数据 中 。 





实际 的 原始 数据 可 能 恰好 与 某 个 理论 分 布 相 吻 合 , 也 有 可 能 不 存在 任何 适用 于 该 数据 的 理论 
分 布 。 但 即便 不 存在 吻合 的 分 布 , 仍然 可 以 通过 计算 各 种 统计 度量 来 得 出 重要 的 结论 , 具体 内 容 
将 在 下 一 个 单元 介绍 。 




















回顾 统计 度量 








从 探索 性 ( 非 基 于 推理 的 ) 数据 科学 的 角度 来 看 ， 统 计 学 回答 了 四 个 重要 问题 。 
口 数据 位 于 何 处 ? 
样本 均值 是 所 有 观察 值 的 平均 值 : 





X= x/N 


当 数 据 接近 正 态 分 布 ( 也 即 “ 钟 形 ” 分 布 ) 且 标准 差 较 小 时 ， 可 以 使 用 样本 均值 来 表示 
整个 样本 。 


口 数据 分 布 有 多 广 ? 
样本 标准 差 是 数据 分 散 程度 的 度量 ， 其 计算 方式 为 数据 与 样本 均值 的 均 方差 的 平方 根 : 


a >-7) 
* Y N-l 




















s, 越 大 ， 数 据 分 布 得 越 广 。 
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口 数据 分 布 的 偏 斜 程度 有 多 大 ? 


样本 偏 斜 度 是 概率 分 布 不 对 称 性 的 度量 。 零 偏 斜 度 意味 着 分 布 是 对 称 的 。 对 于 单 峰 分 布 
(具有 一 种 模式 的 分 布 ) 来 说 ， 负 的 偏 斜 度 表 示 概 率 密 度 函 数 左 侧 的 尾部 长 于 右 侧 。 


口 两 个 变量 是 否 相关 ? 


样本 协 方差 是 衡量 两 个 随机 变量 ( 的 变化 ) 接 近 程 度 的 度量 。X 与 自身 的 协 方差 称 为 方差 ， 
记 为 9” (标准 差 的 平方 )。 






































> (mi —X)(y, —») 
N-1 


皮尔 逊 (Pearson ) 相关 系数 ， 叉 称 为 相关 系数 或 相关 ， 是 协 方差 的 归 一 化 : 





Gy, — Ny) 


六 ”三 一 


(N-—Ds,s, 



































相关 性 的 取 值 范围 是 [-1…1]， 请 参考 下 表 。 相 关 性 的 取 值 较 大 意味 着 变量 是 相关 的 ， 取 
值 较 低 意味 着 变量 是 反 相 关 的 。 零 相关 意味 着 变量 不 是 线性 相关 的 。 





























表 6 ”两 个 变量 之 间 的 线性 关系 的 类 型 





r«<0 =0 m0 
p<0.01 强 反 相关 不 线性 相关 强 相关 
p>0.01 不 线性 相关 














强 相关 性 并 不 意味 着 变量 存在 因果 关系 。 两 个 变量 呈 高 度 相 关 或 反 相 关 , 其 可 能 的 原因 是 它 
们 都 由 相同 因素 导致 ( 混杂 变量 ), 但 也 可 能 只 是 巧合 。 例 如 ， 当 白天 变 长 黑夜 变 短 ， 就 会 出 现 
更 多 溺水 身亡 的 人 , 但 是 沅 水 的 原因 并 不 是 白天 变 长 ,而 是 因为 夏天 的 到 来 既 使 得 白天 变 长 ,也 
同时 促使 游泳 的 人 增多 ! 

类 似 地 ， 两 个 变量 不 线性 相关 并 不 意味 着 二 者 就 没有 关系 : 它们 之 间 可 能 是 非 线 性 的 关系 。 
当 没有 观察 到 明显 的 线性 相关 性 时 , 不 要 失望 。 应 该 再 分 析 一 下 其 他 的 关系 模型 ， 比 如 第 50 单 元 
中 提 到 的 聚 类 。 
























































人 口 和 样本 
中 虽然 你 可 能 对 统计 推断 (从 样本 数据 中 推测 出 人 口 可 能 具有 的 特征 的 艺术 ) 不 感 兴 





趣 ， 但 仍 需要 明白 ， 大 多 数 时 间 数据 科学 家 处 理 的 并 不 是 整个 观测 人 和 群 ， 而 是 量 比 
较 小 的 样本 。 本 单元 列 出 的 所 有 统计 度量 都 不 是 真 值 一 一 它们 是 样本 估计 值 。 


第 47 单元 ”以 Python 的 方式 完成 统计 117 





当 样 本 的 观测 次 数 较 少 时 ， 两 个 变量 之 间 的 相关 性 可 能 很 大 , 但 相关 性 不 一 定 显 车。 显著 性 
的 度量 被 称 为 p 值 。z 的 值 越 小 越 好 ， 不 过 p 和 0.01 就 可 以 认为 是 足够 好 了 。 

现在 我 们 可 以 转 到 Python 了 。 我 们 将 学 习 如 何 从 分 布 中 得 出 样本 ， 并 以 Python 的 方式 计算 各 
种 统计 度量 。 
































第 47 单元 
以 Python 的 方式 完成 统计 


Python 对 随机 数 和 统计 的 支持 分 散在 以 下 多 个 模块 中 .statistics、numpy .random、pandas 
和 scipy.stats。 


生成 随机 数 
numpy, random 横 块 中 包含 所 有 主要 概率 分 布 的 随机 数 生成 器 。 


本 书 在 第 1 章 中 就 指出 ， 数 据 分 析 的 代码 应 该 是 可 复 现 的 : 任何 人 都 应 该 能 够 使 用 相同 的 输 
入 数据 运行 相同 的 程序 ， 并 获得 相同 的 结果 。 因 此 ， 你 应 该 始终 使 用 seed ( ) 函数 来 初始 化 伪 随 
机 种 子 ， 和 否则 ， 随 机 数 生成 器 在 每 个 程序 运行 时 会 产生 不 同 的 伪 随 机 序列 ， 这 可 能 使 结果 难以 万 
至 不 可 能 复 现 。 


import numpy.random as rnd 
rnd.seed(z) 


下 面 的 函数 产生 均匀 、 正 态 以 及 二 项 分 布 的 整数 和 实 值 随机 数 。 这 些 函 数 都 返回 一 个 具有 
shape 或 size 的 numpy 数 组 ( shape 是 一 个 由 各 个 维度 组 成 的 列表 ), 除 非 size 的 参数 设置 为 None。 

rnd.uniform(Low=0.0，high=1.0，Ssize=None) 

rnd.rand(shape) ## 等 同 于 uniformn(0.0，1.0，None) 

rnd.randint(low, high=None, size=None) 

rnd.normal (loc=0.0, scale=1.0, size=None) 

rnd.randn(shape) # 等 同 于 normal(0.0, 1.0,，shape) 

rnd.binomial(n, p, size=None) 

当 需 要 设置 预测 实验 并 将 数据 分 为 训练 集 和 测试 集 时 ,二 项 分 布 是 必 不 可 少 的 (更 多 关于 预 
测 实验 的 内 容 ， 请 参考 第 48 单 元 )。 令 训练 集 的 相对 大 小 为 p， 测 试 集 的 相对 大 小 为 1-P。 你 可 以 
准备 一 个 二 值 序列 ， 然 后 将 其 转换 为 True 和 False 值 的 布尔 序列 ， 最 后 通过 pandas 的 frame 选 出 
两 个 集合 : 

selection = rnd.binomial(1, p, size=len(data)).astype(bool) 


training = df[selection] 
testing = df[-selection] 
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计算 统计 度量 











作为 一 种 快速 而 随 性 的 计算 统计 度量 的 方式 ，statistics 模 块 (本 书 首次 提 及 该 模块 是 在 
第 14 单 元 ) 提供 低 端 函数 mean( ) 和 stdev ()。 


pandas 的 frame 和 series 具 有 用 于 计算 与 其 他 frame 和 series 的 相关 性 和 协 方差 的 函数 ， 也 有 计 
算 frame 的 列 之 间 的 两 两 相关 性 和 协 方 差 ( 但 没有 p 值 ) 以 及 其 他 统计 度量 的 函数 。 


证 我 们 再 次 使 用 第 31 自 

















( 我们 不 是 醉 汉 ! 我 们 是 数据 科学 家 : 





准备 
beer seriesNY 
beer seriesCA 


beer_ seriesNY. 


corr(beer seriesCA) 


0.97097785391654789 


beer seriesCA. 


cov(beer seriesNY) 


> 0.017438162878787872 





元 中 被 转换 为 fame 的 NIAAA 监 探 报告 ， 来 探索 pandas 的 统计 功能 。 











且 得 到 了 一 个 好 的 数据 集 ， 我 们 将 最 大 限度 地 使 用 它 ! ) 


两 个 series， 然 后 计算 它们 的 相关 性 、 协 方差 和 偏 斜 度 : 


alco.ix['New York']['Beer'] 
alco.ix['California']['Beer'] 


[x.skew() for x in (beer seriesCA, beer seriesNY)] 


[0.16457291293004678，0.328381005863470241] 


我 们 也 可 以 对 frame 应 用 相同 的 函数 : 


frameNY = alco.ix['New York'] 


frameNY. skew() 


> Beer 0.328381 
>»> Wine 0.127308 
Spirits 0.656699 


>» dtype: float64 


frameNY.corr() 


## 所 有 的 两 两 相关 性 


Beer Wine Spirits 

> Beer 1.000000 0.470690 0.908969 
> Wine 0.470690 1.000000 0.611923 
> Spirits 0.908969 0.611923 1.000000 


frameNY.cov() 


# 所 有 的 两 两 协 方差 


Beer Wine Spirits 

> Beer 0.016103 0.002872 0.026020 

> Wine 0.002872 0.002312 0.006638 
>» Spirits 0.026020 0.006638 0.050888 
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后 两 个 函数 分 别 返 回 包含 所 有 两 两 相关 性 及 所 有 两 两 协 方差 的 fame。 
个 series 和 一 个 frame 相关 联 ， 也 可 以 将 一 个 ffame 和 另 一 个 fame 相 关联 。 例 
查 











我 们 还 可 以 将 一 
如 ,使 用 美国 人 口 普 查 局 2000 年 至 2009 年 间 的 数据 *?， 分析 纽约 的 酒精 消费 与 国家 人 口 之 间 是 否 
存在 某 种 相关 性 : 





# 移 除 最 后 两 行 : 因为 这 两 行 数据 包含 了 对 未 来 的 舍 计 值 

pop_seriesNY = pop.ix["New York"][:-2] 

# 将 索引 由 日 期 变 为 整数 年 

pop_seriesNY.index = pop_ seriesNY.index.str.split().str[-1].astype(int) 


frameNY.ix[2000:2009] .corrwith(pop_seriesNY) 


今 Beer -0.520878 
今 Wine 0.936026 
今 Spirits 0.957697 
今 dtype: float64 


请 注意 ，frame 和 series 中 的 行 是 以 相反 的 顺序 排列 的 。pandas 非 常 智能 ， 可 以 使 用 行 索引 来 
匹配 正确 的 行 。 当 然 ， 真 正 起 作用 的 是 数据 对 齐 机 制 。( 第 36 单 元 详细 讨论 了 数据 对 齐 方式 。) 


要 估计 相关 性 的 显著 程度 ， 请 使 用 scipy .stats 模 块 中 的 pearsonr() 函数 。 该 函数 返回 相 
关 性 和 p 值 , 但 它 不 能 与 pandas 的 frame 集 成 , 也 不 支持 索引 ,所 以 你 需要 将 索引 对 齐 并 将 结果 转 
换 回 frame。 


from scipy.stats import pearsonr 
# 手动 排列 索引 
pop_sorted = pop_seriesNY.sort_ index() 
alco 10 = alco.ix['New York'][-10:] 
# 使 用 列表 解析 的 方式 计算 所 有 的 相关 性 和 p 值 
corrs = [(bev,) + pearsonr(alco 10[bev]，pop_sorted) 
for bev in alco 10.columns] 
# 将 列表 转换 为 frame 
pd.DataFrame(corrs, columns=("bev", "r", "p-value")).set index("bev") 

















> r p-value 
今 bev 
今 Beer -0.520878 0.122646 
今 Wine 0.936026 0.000068 
今 Spirits 0.957697 0.000013 
请 注意 ,“ 啤 酒 ”相关 性 的 p 值 是 非常 高 的 。 根 据 第 46 单 元 中 的 表 6， 我 们 得 出 结论 ， 人 口 与 
啤酒 消费 之 间 不 存在 线性 关系 。 
我 们 现在 完全 有 能 力 重 新 审视 第 36 单 元 中 的 交叉 表 的 例子 。 根 据 交 义 表 的 分 析 ， 我 们 得 出 
2009 年 的 人 均 啤酒 消费 量 和 葡萄酒 消 费 量 可 能 是 线性 独立 的 。 皮 尔 逊 相关 性 分 析 完 全 证 实 了 我 们 
的 说 法 : 


















































QD www.census.gov/popest/data/historical/2000s/vintage 2009/state.html 
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alco2009. corr() 
=>》 Beer Wine Spirits 
今 Beer 1.000000 -0.031560 0.452279 


今 Wine -0.031560 1.000000 0.599791 
今 Spirits 0.452279 0.599791 1.000000 


相关 性 具有 极 高 的 p 值 ， 这 为 我 们 的 假设 提供 了 致命 一 击 : 
pearsonr(alco2009["Wine"], alco2009["Beer"]) 
今 (-0.031560488300856844, 0.82598481310787297) 


下 面 的 散 点 图 解释 了 原因 : 这 些 点 差不多 散布 在 整 幅 图 上 ， 没 有 特定 的 顺序 或 规律 。 











Wine and Beer Consumption per Capita in the USA in 2009 | 
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轮 到 你 了 


将 本 章 称 为 “概率 与 统计 ”其 实 是 一 种 比较 鲁莽 的 做 法 。 即 使 是 单独 介绍 概率 论 也 需要 大 量 
的 篇 幅 ， 并 不 是 几 页 就 能 写 清 楚 的 ， 更 何况 还 有 统计 方面 的 内 容 。 无 论 是 概率 论 还 是 统计 ， 如 果 
你 是 第 一 次 接触 相关 内 容 ， 而 又 想 要 成 为 一 名 数据 科学 家 , 那 我 不 得 不 说 ,你 还 需要 完成 大 量 的 
阅读 。《 统 计 学 习 导论 : 基于 R 应 用 》 是 一 个 很 好 的 起 点 ， 尽 管 书 中 使 用 的 R 语 言 可 能 会 使 你 将 其 
与 Python 相 混淆 。 但 即便 你 在 统计 方面 是 一 个 不 折 不 扣 的 新 手 ， 仍 然 可 以 做 一 些 有 趣 的 项 目 。 让 
Python 伴 你 前 行 ! 






























































口 21 世 纪 标 准 普尔 500 指 数 * 


编写 一 个 程序 , 给 出 21 世 纪 标 准 普尔 500 指 数 收盘 价 的 一 些 基 本 统计 量 : 平均 值 、 标 准 差 、 
偏 斜 度 以 及 收盘 价 和 交易 量 之 间 的 相关 性 。 为 了 确定 得 出 的 相关 性 是 否 可 靠 ， 可 以 从 
Yahoo! Finance" 下 载 历史 价格 。 应 注意 ，21 世 纪 是 从 2001 年 1 月 1 日 开始 的 。 

营养 物质 网 络 *** 

美国 农业 部 (USDA ) 营养 数据 库 ? 包 含 大 约 9000 种 食物 和 150 种 营养 成 分 的 信息 。 当 两 种 
营养 成 分 在 所 有 食品 中 的 量具 有 较 强 的 且 稳 定 的 相关 性 时 ( 相关 度 大 于 0.7，p 值 小 于 
0.01 )， 我 们 就 假定 这 两 种 营养 成 分 是 相似 的 。 编 写 一 个 程序 ， 使 用 文件 NUT_DATA .txt 
中 的 营养 数据 来 构建 相似 营养 成 分 的 网 络 (你 可 能 需要 回顾 第 40 单 元 )。 网 络 中 的 每 种 营 
养 成 分 是 一 个 节点 ， 当 两 种 营养 成 分 相似 时 ， 就 将 对 应 的 两 个 节点 相连 。 

网 络 是 否 存 在 社区 结构 ? 如 果 存 在 ， 在 一 起 的 是 什么 营养 成 分 ? 
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Q finance.yahoo.com/q/hp?s=^GSP+Historical+Prices 
© www.ars.usda.gov/Services/docs.htm?docid=25700 (document SR28) 


在 我 的 迪 尔 伯 因 农场， 所 有 工作 都 是 用 机 器 完成 的 。 
一 一 美国 实业 家 亨利 .福特 


机 器 学 习 























机 器 学 习 是 一 个 致力 于 研究 并 构建 算法 的 研究 领域 ， 这 些 算法 从 实验 数据 中 进行 学 习 和 预 
测 。 机 需 学 习 可 以 分 为 两 大 类 : 监督 学 习 和 无 监督 学 习 。 


监督 学 习 尝 试 从 具有 标记 的 训练 数据 集中 推断 出 预测 函数 , 其 中 训练 数据 集 的 每 个 观测 样本 
属于 哪 一 类 是 已 知 的 ( 分 类 结果 实际 上 也 是 数据 集 的 一 部 分 )。 本 童 中 我 们 将 学 习 线性 回归 ( 包 
括 第 49 单 元 中 的 逻辑 回归 ) 以 及 随机 决策 森林 ( 第 51 单 元 )。 很 遗憾 ， 由 于 篇 幅 所 限 ， 本 章 并 未 
包含 朴素 贝 叶 斯 分 类 、 支 持 和 撩 量 机 、 线 性 判别 分 析 和 神经 网 络 等 内 容 。 

无 监督 学 习 尝 试 在 没有 标记 的 数据 中 找 出 隐藏 的 结构 。 最 流行 的 一 些 无 监督 技术 包括 k 均 值 
聚 类 (第 50 单 元 ) 和 社区 检测 (第 40 单 元 第 2 小 节 )。 分 层 聚 类 和 主 成 分 分 析 也 是 无 监督 学 习 的 算 
法 ,但 限于 篇 幅 ， 本 书 并 不 包含 相关 内 容 。 

这 两 种 类 型 的 机 器 学 习 工具 都 可 用 于 探索 性 和 预测 性 数据 分 析 。 在 SciKit-Learn 模 块 及 其 
子 模块 中 ， 可 以 找到 相关 工具 的 Python 实现 。 如 果 你 想 实 现 的 功能 是 对 未 出 现 的 事物 进行 预测 ， 
而 不 是 对 已 出 现 的 事物 进行 解释 ， 那 首先 要 做 的 就 是 设置 一 个 预测 实验 。 













































































第 48 单元 \_ _ 
设计 预测 实验 


数据 的 预测 分 析 绝 对 是 货真价实 的 科学 实验 , 必须 按照 严谨 的 科学 实验 的 方式 来 组 织 。 数据 
模型 的 预测 功能 不 能 只 是 嘴 上 说 说 ， 对 其 预测 能 力 的 评估 和 验证 是 实验 的 重要 部 分 。 


请 按照 以 下 四 个 步骤 ， 完 成 模型 的 建立 、 评 佑 和 验证 。 
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(1) 将 输入 数据 分 成 训练 集 和 测试 集 ( 建议 划分 比例 为 70 : 30 )。 然 后 将 测试 数据 放 在 一 旁 ， 
切 勿 将 其 用 于 准备 数据 模型 。 


(2) 仅 使 用 训练 数据 构建 数据 模型 。 

(3) 将 新 模型 应 用 于 测试 数据 。 

(4) 使 用 混淆 矩阵 或 其 他 质量 保证 工具 评估 模型 质量 。 如 果 模 型 通过 测试 ， 则 结束 ， 否 则 重 
复 以 上 三 个 步骤 直到 模型 通过 测试 。 

二 元 混淆 矩 阵 是 一 个 两 行 两 列 的 表 , 用 于 评估 二 元 预测 模型 ( 预测 某 些 属性 是 否 成 立 的 模型 ) 
的 准确 性 ， 如 下 表 所 示 。 





























表 7 ”二 元 混淆 矩阵 





分 类 结果 
阳 阴 真实 值 
真 阳 (TP ) 假 阴 (FN) 阳 
假 阳 (FP) 真 阴 (TN) 阴 

















假设 测试 集中 的 每 一 项 是 否 具有 预测 属性 是 已 知 的 ， 我 们 使 用 模型 来 预测 每 个 项 目的 属性 。 
(显然 , 这 个 假设 仅 适 用 于 监督 学 习 的 模型 ! ) TP 是 指 模型 正确 地 预测 了 属性 为 存在 ( 真 阳 ) 的 ] 
目 数 ; TN 是 指 模型 正确 地 预测 了 属性 为 不 存在 ( 真 阴 ) 的 项 目 数 ; FP 是 指 模型 错误 地 预测 了 
性 为 存在 〈 假 阳 ) 的 项 目 数 ; FN 是 指 模型 错误 地 预测 了 属性 为 不 存在 假 明 ) 的 项 目 数 。 

















融 泽 


























其 他 机 器 学 习 技 术 


其 他 监督 和 无 监督 机 器 学 习 技 术 包括 朴素 贝 叶 斯 分 类 、 支 持 夭 量 机 ( SVN )、 线 性 
判别 分 析 ( LDA ) 和 神经 网 络 。 它 们 中 的 一 些 已 经 包含 在 SciKit-Learn 模 块 中 了 。 








对 混 痛 矩 阵 进行 归纳 可 以 得 出 定量 的 评价 指标 。 
口 准确 度 是 正确 分 类 项 目的 比例 : 

















TP+TN 
TP+TN+FP+FN 





准确 度 = 























具有 较 高 的 准确 性 是 预测 模型 的 最 低 要 求 ， 如 果 不 能 保证 ， 模 型 就 不 是 准确 的 ! 
口 精确 度 是 所 有 阳性 分 类 中 真 阳 所 占 的 比例 : 

















TP 
十 看 度 = 一 -一 
精确 度 TP+FP 























口 灵敏 度 (或 召回 ) 是 在 所 有 阳 真 实 值 中 真 阳 所 占 的 比例 : 





灵敏 度 =_ 于 
TP+FN 
































灵敏 度 给 出 了 模型 识别 观测 属性 的 能 力 好 坏 。 如 果真 阳 是 比较 罕见 的 ( 例如 一 般 人 群 中 
的 癌症 病例 )， 模 型 就 必须 足够 敏感 才 行 。 


口 特异 性 是 在 所 有 阴 真 实 值 中 真 阴 所 占 的 比例 : 














__ IN 
~ TN+FP 
较 高 的 特异 性 意味 着 模型 能 很 好 地 捕获 该 属性 的 缺失 。 

许多 统计 模型 具有 高 灵敏 度 、 低 特异 性 , 或 低 灵敏 度 、 高 特异 性 ， 具体 是 哪 一 种 取决 于 模型 
参数 。 参 数 选择 的 依据 是 : 哪个 度量 对 你 而 言 更 重要 ， 就 选择 相应 的 参数 。 如 果 预 测 模型 的 特异 
性 和 灵敏 度 都 很 低 ， 则 可 以 将 其 转化 成 为 一 个 很 好 的 预测 因子 。 

如 果 预 测 值 不 是 二 元 的 ( 例如 分 类 或 连续 值 )， 则 必须 使 用 其 他 质量 控制 工具 。 在 本 章 的 后 
续 部 分 中 ， 我 们 将 学 习 部 分 这 样 的 工具 。 


特异 性 

























































































线性 回归 拟 合 




















线性 回归 是 一 种 预测 统计 模型 ， 其 目的 是 使 用 线性 模型 来 解释 变量 的 全 部 或 部 分 变化 规律 。 
这 是 一 种 监督 建 模 技 术 : 在 预测 之 前 ， 必 须 对 模型 进行 训练 (“ 拟 合 ”)。 





普通 最 小 二 乘 回归 


普通 最 小 二 乘 ( OLS ) 回归 将 自 变量 〈 预测 因子 ) 和 因 变量 〈 预测 值 ) 联系 在 一 起 。 该 模型 
将 预测 值 reg(x) 视 为 预测 因子 x 的 线性 组 合 。 真 实 值 y, 和 预测 值 之 间 的 差异 称 为 残 差 。 在 最 佳 拟 合 
的 情况 下 ， 所 有 残 差 都 为 零 。 可 能 的 加 权 ( 权重 wz>0 ) 残 差 的 平方 和 ( SSR ) 给 出 了 拟 合 的 质量 。 
训练 模型 的 过 程 就 是 最 小 化 SSR 的 过 程 : 








SSR = > —reg(x,)) Ww — min 


另 一 种 拟 合 质量 的 度量 是 模型 得 分 ， 也 称 为 R*。 得 分 0 入 R 过 1 表示 拟 合 模型 ( 和 理想 情况 ) 
的 差异 大 小 。 在 最 佳 拟 合 的 情况 下 ，R =1。 对 于 非常 差 的 拟 合 ，R“=0。 
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sklearn.linear_model 模 块 中 的 构造 函数 LinearRegression() 可 以 创建 一 个 OLS 回 归 
对 象 。 


fit() 函数 使 用 1xz 的 预测 因子 和 矩阵。 如果 模型 具有 一 个 自 变 量 ， 且 预测 因子 是 矢量 的 形式 ， 
则 使 用 numpy .newaxis 对 象 的 切片 操作 创建 另 一 个 维度 。 将 因 变 量 的 真 值 作 为 一 维 矢量 传递 给 
fit() 函数 。( 如 果 想 对 多 个 属性 进行 预测 ， 则 必须 构建 和 拟 合 多 个 模型 。) 


拟 合 完成 后 ， 可 以 使 用 回归 对 象 来 计算 预测 值 ( 函数 predict() ) 和 得 出 拟 合 分 数 〈 函数 
score() )。 属 性 coef 和 intercept 分 别 包含 回归 系数 和 拟 合 后 的 截 距 值 。 


以 下 示例 使 用 Yahoo! Finance "的 标准 普尔 500 收 盘 价 记录 来 建立 、 拟 合 和 评估 线性 回归 模型 。 
假定 数据 之 前 被 保存 为 文件 sapXXI.csv。 


首先 ， 导 入 所 有 必要 的 模块 并 加 载 标准 普尔 500 数 据 : 


sap-linregr.py 

import numpy, pandas as pd 

import matplotlib, matplotlib.pyplot as plt 
import sklearn.linear model as lm 
































# 获取 数据 

sap = pd.read csv("sapXXI.csv").set index("Date") 

可 以 看 出 数据 的 行为 通常 是 非 线性 的 , 但 是 从 2009 年 1 月 1 日 开始 有 一 个 很 好 的 、 几 乎 线性 的 
片段 ， 并 延伸 到 数据 集 的 结尾 。 下 面 仅 使 用 该 片段 进行 模型 拟 合 。 可 惜 的 是 ，SciKit-Learn 不 
直接 支持 日 期 这 种 数据 格式 。 因 此 ， 必 须 将 其 转换 为 序数 ， 即 天 数 ， 然 后 才能 创建 、 拟 合 和 评估 
线性 回归 模型 ， 并 算出 标准 普尔 500 指 数 的 预测 值 。 模 型 得 分 是 0.95， 这 个 值 是 可 以 接受 的 ! 
































sap-linregr.py 

# 选取 一 段 “ 线 性 变化 ”的 数据 

sap.index = pd.to datetime(sap.index) 

sap_linear = sap.ix[sap.index > pd.to datetime('2009-01-01')] 


# 准备 模型 并 拟 合 
olm = lm.LinearRegression() 
X = numpy.array([x.toordinal() for x in sap linear.index])[:, numpy.newaxis] 


y = sap_linear['Close'] 

olm.fit(X, y) 

# 计算 预测 值 

yp = [olm.predict(x.toordinal())[0] for x in sap linear.index] 

# 评估 模型 

olm score = olm.score(X, y) 

最 后 ,代码 会 将 原始 数据 集 、 预 测 直 线 ， 其 至 模型 分 数 都 绘制 出 来 。 结果 如 下 面 代码 后 的 图 
所 示 。 




















Q finance.yahoo.com/q/hp?s=^GSPC+Historical+Prices 
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sap-linregr.py 
# 选择 一 种 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


# 绘制 两 个 数据 集 
plt.plot(sap_ linear.index, y) 
plt.plot(sap_ linear.index, yp) 


# 加 入 图 饰 
plt.title("OLS Regression") 
plt.xlabel ("Year") 
plt.ylabel ("S&P 500 (closing)") 
plt.legend(["Actual", "Predicted"], loc="lower right") 
plt.annotate("Score=%.3f" % olm score, 
xy=(pd.to datetime('2010-06-01'), 1900)) 
plt.savefig("../images/sap-linregr.pdf") 
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有 一 个 不 尽 如 人 意 的 地 方 , 那 就 是 SciKit-Learn 没 有 计算 拟 合 的 p 值 ， 因此 不 能 确定 拟 合 是 
否 有 效 。 

如 果 要 将 一 些 非 线性 预测 因子 ( 例如 平方 、 平 方 根 和 对 数 ) 甚至 原始 预测 因子 的 组 合 添加 到 
模型 中 ， 只 需 将 这 些 函 数 和 组 合 看 作 新 的 自 变 量 即 可 。 





脊 回归 
如 果 存 在 两 个 或 更 多 个 预测 因子 是 高 度 相 关 的 〈 所 谓 的 共 线性 的 情况 )， 则 拟 合 OLS 回 归 可 
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能 产生 非常 大 的 系数 。 你 可 以 通过 施加 惩罚 因子 来 限制 回归 系数 的 这 种 不 可 控 增 长 。 兰 回归 就 是 
这 样 一 种 广义 线性 模型 ， 它 使 用 复杂 度 参数 w 来 实现 对 系数 的 抑制 。 该 过 程 称 为 模型 的 正则 化 : 

















SSR ,。 = > (0， —reg(x,)) w + cy》 ，coeff? —> min 





当 a=0 时 ， 少 回归 退化 为 OLS 回 归 。o 越 大 ， 惩罚 越 大 ; 模型 拟 合 会 得 出 较 小 的 系数 ,但 这 样 
也 有 可 能 使 模型 变 得 更 糟 。 

函数 Ridge() 创 建 一 个 着 回归 对 象 ， 它 以 a 为 参数 。 创 建 对 象 后 ， 可 以 像 使 用 OLS 回 归 一 样 
使 用 它 : 

regr = lm.Ridge(alpha=.5) 

regr.fit(X, y) 


从 























逻辑 回归 

虽然 名 称 中 有 “回归 ”， 但 逻辑 回归 并 不 是 回归 ， 实 际 上 它 是 一 种 二 元 分 类 工具 。 它 使 用 广 
义 逻 辑 函 数 ( 逻辑 函数 的 扩展 ,也 称 为 s 曲 线 或 sigmoid 函 数 ， 如 下 图 所 示 )。 广义 逻辑 函数 的 特征 
包括 上 下 渐 近 线 、sigmoid 函 数 中 点 的 x 值 和 曲线 的 陡 度 。 




















Logistic function 
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函数 LogisticRegression() 创 建 一 个 逻辑 回归 对 象 的 实例 。 它 需要 几 个 可 选 参数 ， 其 中 最 
重要 的 是 参数 C。 
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参数 Cc 是 正则 化 参数 的 倒数 ( 即 痊 回归 的 a 的 倒数 )。 通常 ， 为 了 使 分 类 的 结果 有 意义 ， 其 取 
值 至 少 为 20。 默 认 值 C=1.0 在 许多 实际 情况 下 是 不 合理 的 。 

因 变 量 y 可 以 是 整数 、 布 尔 值 或 字符 串 。 

sklearn.linear_model 通 过 predict() 消 数 实现 分 类 。 与 线性 回归 模型 (OLS 和 疹 回 归 ) 
不 同 ， 逻 辑 回归 模型 的 预测 结果 通常 比 模型 系数 coef_ 和 和 截 距 intercept_ 更 有 价值 。 

下 面 的 例子 将 使 用 43 名 学 生 的 计算 机 科学 导论 课程 的 匿名 测验 成 绩 ( 可 在 文档 grade.csv 中 找 
到 ) 来 前 述 逻 辑 回归 。 通 过 分 析 ， 研 究 是 否 能 使 用 前 两 次 的 测验 结果 ( 共 十 次 测试 ) 来 预测 学 生 
的 最 终 成 绩 ， 或 至 少 预测 出 成 绩 是 否 达标 (“C” 或 以 上 ): 






























































logit-example.py 

import pandas as pd 

from sklearn.metrics import confusion matrix 
import sklearn.linear model as lm 


人 # 初始 化 回归 工具 
clf = lm.LogisticRegression(C=10.0) 





# 读 取 数据 ， 使 用 字母 给 出 成 绩 的 量化 等 级 

grades = pd.read table("grades.csv") 

labels = ('F', 'D', 'C', 'B', 'A') 

grades["Letter"] = pd.cut(grades["Final score"], [0, 60, 70, 80, 90, 100], 
labels=labels) 

X = grades[["Quiz 1", "Quiz 2"]] 


## 拟 合 ， 并 给 出 模型 得 分 和 混 消 和 矩阵 

clf.fit(X, grades["Letter"]) 

print("Score=%.3f" % clf.score(X, grades["Letter"])) 

cm = confusion matrix(clf.predict(X), grades["Letter"]) 
print(pd.DataFrame(cm, columns=labels, index=labels)) 


今 Score=0.535 

->》 F DC BA 
> F 0 0 0 0 0 
> D 2 16 6 4 1 
今 C 0 1 6 2 2 
今 B 0 0 0 1 2 
今 A 0 0 0 0 0 





我 们 使 用 sklearn.metrics 模 块 中 的 confusion _matrix() 函数 来 计算 混淆 矩阵 ( 参见 表 
7 )。 模 型 得 分 看 起 来 不 太 准确 : 该 模型 能 够 准确 预测 的 成 绩 只 占 所 有 成 绩 的 54% 左 右 。 然 而 ,， 混 
消 和 矩阵 的 主 对 角 线 (正确 预测 ) 及 其 邻 域 几乎 包含 了 所 有 的 非 零 条 目 。 这 意味 着 模型 的 预测 要 么 
是 准确 的 , 要 么 是 结果 具有 +1 个 字母 的 偏差 。 对 大 多 数 实际 应 用 而 言 , 这 种 “扩展 ”精度 ( 84% ) 
实际 上 已 经 足够 了 。 
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聚 类 是 一 种 无 监督 的 机 器 学 习 技术 。 你 不 需要 ( 也 不 能 ) 对 模型 进行 训练 。 

聚 类 的 目标 是 将 样本 〈 每 个 样本 用 一 个 n 维 实数 矢量 表示 ) 划分 到 具有 较 好 内 部 邻近 度 的 不 
相交 紧凑 组 中 。 要 实现 聚 类 ， 矢 量 维度 必须 具有 合理 的 、 可 兼容 的 取 值 范围 。 如 果 某 一 维 的 取 值 
范围 比 其 他 维 的 取 值 范围 大 得 多 或 小 得 多 ， 就 应 该 在 聚 类 之 前 对 “ 太 大 ”或 “ 太 小 ”的 变量 进行 
缩放 。 

k 均 值 聚 类 按照 下 面 的 算法 将 样本 聚合 成 [个 类 ( 该 算法 也 因此 得 名 )。 

(1) 随机 选择 k 个 矢量 作为 初始 质心 ( 矢量 不 需要 是 数据 集中 的 样本 )。 

(2) 将 每 个 样品 分 配给 它 最 接近 的 质心 。 

(3) 重新 计算 质心 位 置 。 

(4) 重复 步骤 2) 和 步 又 (3)， 直 到 质心 不 再 移动 。 

sklearn.cluster 模 块 通过 KMeans 对 象 实现 k 均 值 算法 ， 该 对 象 具 有 用 于 实际 聚 类 的 fit() 
函数 、 用 于 将 新 样本 分 配给 预先 计算 好 的 聚 类 的 predict ( ) 函数 ， 以 及 用 于 同时 完成 聚 类 和 标记 
的 fit_predict() 函 数 。 

模块 sklearn.preprocessing 具 有 实现 变量 缩放 的 scale() 艺 数 。 该 函数 将 每 一 维 变量 减 
去 其 最 小 值 ， 再 除 以 其 取 值 范 围 ， 从 而 将 每 一 维 变量 都 映射 到 [0…1] 的 区 间 内 。 

cluster_centers 和 labels 属性 包含 描述 最 终 质心 的 矢量 ， 以 及 分 配给 每 个 样本 类 的 数 
字 标 签 。 其 中 ,标签 并 不 反映 类 的 目的 和 组 成 。 如 果 要 为 类 分 配 有 意义 的 标签 ， 可 以 执行 以 下 任 
意 一 种 操作 。 

口 使 用 人 的 智能 (查看 样本 并 提供 一 个 通用 标签 )。 
口 使 用 众 包 ( 例如 亚马逊 的 MTurk 工 作 人 员 )。 
口 从 数据 生成 标签 (例如 将 具有 主导 地 位 的 样本 的 一 个 属性 指定 为 类 标签 )。 

在 第 47 单 元 第 2 小 节 中 ， 我 们 试图 对 美国 在 2009 年 的 葡萄 酒 和 啤酒 消费 情况 进行 分 析 ， 得 出 
的 结论 是 两 者 并 不 是 线性 相关 的 。 现 在 让 我 们 通过 聚 类 给 这 些 “ 高 贵 ” 饮 料 男 一 个 机 会 。 分析 的 
流程 及 结果 如 下 : 
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clusters.py 


import matplotlib, matplotlib.pyplot as plt 
import pickle, pandas as pd 
import sklearn.cluster, sklearn.preprocessing 


# NIAAA frame 已 完成 了 picktLe 操 作 
alco2009 = pickle.load(open("alco2009.pickle", "rb")) 
# 州 名 缩写 
states = pd.read csv("states.csv", 
names=("State", "Standard", "Postal", "Capital")) 
columns = ["Wine", "Beer"] 
人 # 初始 化 聚 类 对 象 ， 模 型 拟 合 
kmeans = sklearn.cluster.KMeans(n_clusters=9) 
kmeans.fit(alco2009[columns]) 
alco2009["Clusters"] = kmeans.labels _ 
centers = pd.DataFrame(kmeans.cluster centers , columns=columns) 


# 选取 一 种 美观 的 显示 样式 
matplotlib,.style.use("ggplot") 


# 绘制 州 和 聚 类 中 心 
ax = alco2009.plot,.scatter(columns[0], columns[1], c="Clusters", 
cmap=plt.cm.Accent, s=100) 
centers.plot.scatter(columns[0], columns[1], color="red", marker="+", 
Ss=200, ax=ax) 


# 将 州 的 缩写 作为 注释 加 入 图 中 
def add abbr(state): 

_ = ax.annotate(state["Postal"], state[columns], xytext=(1, 5), 
textcoords="offset points", size=8, 
color="darkslategrey") 

alco2009withStates = pd.concat([alco2009, states.set index("State")], 
axis=1) 
alco2009withStates.apply(add abbr, axis=1) 


# 加 入 标题 ， 并 保存 绘图 结果 

plt.title("US States Clustered by ALcohol Consumption") 

plt.savefig(",./images/clusters.pdf") 

请 注意 ， 除 非 传递 了 n_clusters 参 数 ， 否 则 KMeans ( ) 函数 总 是 生成 八 个 类 。 如 何 选择 类 的 
数量 取决 于 你 和 你 的 直觉 。 


我 们 将 原始 数据 ( 实心 圆圈 ， 用 州 名 缩写 标记 ) 和 类 的 质心 (十 字符 号 ) 绘制 在 同一 个 图 表 
中 ， 如 下 所 示 : 
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KMeans ( ) 函数 在 类 的 识别 方面 做 了 很 好 的 工作 ( 比如 葡萄 酒 和 啤酒 的 饮用 量 处 于 中 等 水 平 的 
东北 部 )。 标签 的 放置 存在 许多 不 足 之 处 ， 但 该 主题 不 在 本 书 的 讨论 范围 之 内 。 











Voronoi 单 元 
芒 k 均 值 聚 类 算法 将 自 变 量 空间 分 为 Voronoi 单 元 一 由 与 一 个 种 子 〈( 数 据点 ) 的 距离 





小 于 任何 其 他 种 子 的 点 组 成 的 区 域 。 


在 随机 决策 森林 中 生存 








决策 树 是 一 种 监督 型 的 机 器 学 习 工 具 。 它 使 用 树 形 图 这 样 的 结构 , 其 中 每 个 节点 包含 对 特定 
数据 集 属 性 的 测试 ， 与 节点 相关 联 的 分 支 对 应 测试 结果 。 树 在 使 用 前 必须 经 过 训练 。 训 练 的 内 容 
包括 用 树 来 表示 各 种 预测 因子 以 及 相应 的 标签 ( 特征 )， 并 相应 地 调整 节点 测试 条 件 。( 当然 , 这 
些 训 练 工 作 是 不 需要 手动 完成 的 ! ) 

随机 决策 森林 回归 使 用 一 些 (一 整套 ) 针对 数据 集 各 种 子 样本 的 分 类 决策 树 ， 并 通过 求 预测 
结果 的 平均 值 以 提高 准确 性 ,模块 sklearn.ensemble 提 供 了 构造 器 RandomForestRegressor ()。 
回归 对 象 具 有 fit() 、predict () 等 图 数 ， 它 们 与 目前 为 止 你 在 本 章 中 看 到 的 其 他 回归 具有 相同 
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的 语法 和 语义 。 


下 面 我 们 使 用 随机 决策 森林 来 分 析 波 士 顿 地 区 的 特征 价格 统计 数据 "， 该 数据 是 D. Harrison 





和 D. Rubinfeld 在 1978 年 首先 公布 的 。 该 数据 集 提 供 了 506 个 房价 中 值 (实验 中 的 标签 为 nv ) 和 14 
个 其 他 变量 ( 预测 因子 )。 


© 


rfr.py 

from sklearn.ensemble import RandomForestRegressor 
import pandas as pd, numpy.random as rnd 

import matplotlib, matplotlib.pyplot as plt 


# 读 取 数据 ， 准 备 两 个 随机 的 互补 数据 集 

hed = pd.read csv('Hedonic.csv') 

selection = rnd.binomial(1, 0.7, size=len(hed)).astype(bool) 
training = hed[selection] 

testing = hed[-selection] 


# 创建 回归 和 预测 集 

rfr = RandomForestRegressor() 

predictors tra = training.ix[:, "crim" : "lstat"] 
predictors tst = testing.ix[:, "crim" : "lstat"] 


# 模型 拟 合 

feature = "mv" 

rfr.fit(predictors tra，training[feature]) 
# 选择 一 种 美观 的 样式 
matplotlib,.style.use("ggplot") 


# 绘制 预测 结果 

plt.scatter(training[feature], rfr.predict(predictors tra), c="green", 
s=50) 

plt.scatter(testing[feature], rfr.predict(predictors tst), c="red") 

plt.legend(["Training data", "Testing data"], loc="upper left") 

plt.plot(training[feature], training[feature], c="blue") 

plt.title("Hedonic Prices of Census Tracts In the Boston Area") 

plt.xlabel("Actual value") 

plt.ylabel ("Predicted value") 

plt.savefig(",./images/rfr.pdf") 


我 们 使 用 训练 数据 集 ( 从 完整 数据 集中 随机 选择 的 ) 来 拟 合 预测 因子 @, 然后 在 训练 集 ( @ ) 





tik 
ly 























以 及 未 用 于 拟 合 的 测试 集 ( @ ) 上 进行 测试 。 由 于 预测 特征 mv 不 是 离散 的 ， 这 不 利于 使 用 混淆 和 矩 
阵 来 评估 模型 质量 。 因 此 , 我 们 采取 了 图 形 化 的 方式 , 结果 表明 两 个 数据 集 的 预测 质量 至 少 是 合 
理 的 。 模 型 看 起 来 相当 准确 ， 没 有 过 拟 合 现象 : 























QD rcom.univie.ac.at/mirrors/lib.stat.cmu.edu/datasets/boston 
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本 章 只 是 机 器 学 习 的 冰山 一 角 。( 根据 “传统 ”的 科学 ， 典 型 的 冰山 有 三 分 之 二 被 隐藏 在 水 
下 。) 即便 如 此 ， 你 还 是 拥有 足够 强大 的 工具 和 知识 来 完成 监督 和 无 监督 的 数据 处 理 。 你 可 以 设 
置 描述 性 (回归 和 分 类 ) 和 预测 性 的 数据 科学 实验 , 并 在 一 定 程度 上 评估 其 有 效 性 ， 得 出 不 凡 的 
结论 。 
祝贺 你 ! 现在 你 几乎 已 经 是 一 名 数据 科学 家 了 。( 但 你 仍然 需要 完成 剩余 的 项 目 。) 
口 MOSN 分 类 * 
编写 一 个 程序 , 通过 注册 用 户 数量 和 全 球 Alexa 页 面 排名 ”, 对 大 量 的 在 线 社交 网 站 进行 分 
类 。 由 于 站 点 的 排名 及 其 大 小 差异 很 大 ， 所 以 应 使 用 对 数 尺度 来 进行 聚 类 和 结果 呈现 。 
口 分 片 线性 的 标准 普尔 500** 
编写 一 个 程序 ， 从 Yahoo! Finance” 获 得 21 世 纪 标 准 普 尔 500 的 收盘 价 的 历史 记录 ， 并 将 每 












































QD en.wikipedia.org/wiki/List_of social networking websites 
© finance.yahoo.com/q/hp?s=^GSPC+Historical+Prices 














年 价值 的 观测 值 表示 为 OLS 回 归 模 


分 成 两 半 ,， 并 采用 递归 的 处 理 方式 ， 














型 。 如 果 模 
直到 OLS 模 型 得 分 超过 0.95 或 时 间 间 隔 短 于 一 周 ， 然 








型 得 分 不 够 〈0.95 或 以 下 )， 就 将 时 间 间 隔 


后 将 标准 普尔 500 价 格 的 原始 值 和 OLS 模 型 的 预测 值 绘制 在 一 幅 图 中 。 


口 地 铁 预 测 *** 


编写 一 个 程序 ， 预 测 一 个 城市 是 否 拥有 地 铁 系 统 。 程 序 可 能 需要 用 到 人 口 总 量 、 人 口 密 


度 、 预 算 大 小 、 天 气 状况 、 所 得 税 水 平和 其 他 变 








ee 很 容易 在 网 上 查 到 ， 








而 有 些 则 不 是 。 使 用 逻辑 回归 和 随机 决策 森林 ， 并 选 出 性 能 最 佳 的 方法 。 


如 果 你 找到 了 一 本 书 里 特别 吸引 你 的 段落 ， 那 就 通过 大 上 声 朗 读 开 始 学 习 吧 。 
一 一 北美 作家 Grenville Kleiser 


扩展 阅读 








当 你 读 到 这 里 的 时 候 , 应 该 已 经 发 现 本 书 并 未 涉及 多 么 高 深 的 内 容 , 本 书 假设 你 基本 上 知道 
应 该 做 什么 , 只 是 不 确定 应 该 怎么 做 。 我 将 在 这 里 列 出 几 本 优秀 的 图 书 , 供 大 家 深入 学 习 相 关 主 
题 ， 当 然 ， 这 些 书 中 的 内 容 难免 存在 一 定 程度 的 重复 。 


如 果 你 不 熟悉 数据 科学 ， 但 知道 R 语 言 或 者 至 少 不 介 意 学 习 R 语 言 ， 那 么 你 可 以 参考 《统计 
学 习 导 论 : 基于 R 应 用 》 和 《数据 科学 : 理论 、 方 法 与 R 语 言 实践 六 前 者 是 具有 实用 编程 元 素 的 
统计 学 书 , 后 者 则 是 具有 统计 学 元 素 的 实用 书 , 它们 是 一 个 很 好 的 组 合 。 另 一 本 书 The Elements of 
Data Analytic Style [Lee15] 涉 及 不 同 的 数据 模型 类 型 、 报 告 撰写 、 创 建 支 撑 图 片 和 编写 可 复 现 的 
代码 。 


《利用 Python 进行 数据 分 析 》 是 pandas 的 创作 者 Wes McKinney 的 经 典 pandas 图 书 , 涵盖 了 你 
想 知 道 的 关于 pandas 和 numpy 的 所 有 内 容 , 包括 金融 时 间 序 列 分 析 。 这 本 书 对 很 多 案例 进行 了 非 
常 详 细 的 分 析 。 

《Python 自然 语言 处 理 》 既 是 一 本 Python 教程 , 也 是 一 个 完整 的 NLP 解决 方案 。 这 本 书 假定 你 
并 不 知道 Python， 它 不 仅 介绍 了 文本 归 一 化 和 文字 计数 ,还 介绍 了 文本 分 类 、 和 句子 结 构 分 析 和 话 
义 分 析 。 你 可 以 免费 获取 官方 在 线 版 本 ”1 


社交 网 站 是 一 个 大 型 的 迅猛 扩展 的 原始 数据 仓库 。《 社 交 网 站 的 数据 挖掘 与 分 析 》 仔 细 分 析 
了 应 用 程序 的 编程 接口 ( API ), 使 得 你 可 以 用 Unix 风 格 的 邮箱 、Twitter、LinkedIn、Google Buzz 
和 Facebook。 它 很 好 地 概述 了 最 重要 的 自然 语言 处 理 任务 。 可 惜 的 是 ， 尽管 这 本 书 是 近 几 年 出 版 
的 ， 但 它 的 大 部 分 内 容 已 经 过 时 了 : 一 些 API 已 经 改变 ， 一些 社交 网 络 项 目 ( 比如 Google Buzz ) 
已 经 被 终止 了 。 





























































































































QD www.nltk.org/book 


136 附录 1 拓展 阅读 





《MySQL 必 知 必 会 》 正 如 它 所 声称 的 ， 是 关于 如 何 建立 、 维 护 和 操作 关系 数据 库 的 全 面 的 速 
成 课 。 这 本 书 没有 涉及 Python 或 任何 其 他 语言 的 API。 


在 撰写 本 文 时 ， 还 没有 关于 网 络 分 析 的 Python 图 书 。NehyorK Analysis: Methodological Foundations 
[BE05] 这 本 书 并 不 适用 于 计算 机 程序 员 ， 实 际 上 这 是 一 本 理论 性 非常 强 的 书 。《 社 交 网 络 分 析 》 
对 于 不 喜欢 定理 、 证 明和 宛 长 公式 的 从 业者 来 说 更 为 合适 。 虽 然 使 用 了 《社交 网 络 分 析 》 这 个 书 
名 ,但 这 本 书 的 内 容 不 仅 限于 社交 网 络 ， 还 对 网 络 进行 了 很 好 的 介绍 。 


最 后 ,《 数 据 科 学 入门 》 是 本 书 的 扩展 。 它 扩展 了 统计 学 和 机 带 学 习 的 内 容 ， 是 最 适合 接 下 
来 阅读 的 一 本 书 。 






































在 许多 情况 下 ， 我 们 推断 不 出 问题 的 正确 解决 方案 ， 因 为 我 们 缺少 数据 。 


一 一 北美 伦理 学 研究 员 Durant Drake 


单 星 项 目的 解决 方案 














此 附录 挑选 了 一 些 〈 单 星 ) 项 目 ， 给 出 了 参考 的 解决 方案 。 这 些 解 决 方案 使 用 了 最 具 Python 
风格 的 方式 。 如 果 你 的 解决 方案 与 给 出 的 不 一 致 , 也 没有 必要 纠结 ! 编程 问题 的 解决 方案 本 来 就 
不 止 一 种 ， 这 就 如 同 有 多 种 描写 爱情 和 死亡 的 方法 一 样 。 


口 Hello, World! 


编写 一 个 在 Python 命令 行 输出 “Hello, World!” 的 程序 (第 1 章 的 问题 )。 


solution-hello.py 


## 尊重 传统 
print("Hello, World!") 


口 词 频 计数 器 


编写 一 个 程序 ， 用 于 下 载 用 户 请 求 的 网 页 ， 并 








给 出 网 页 中 使 用 频率 最 高 的 十 个 词 ， 所 有 


词 不 区 分 大 小 写 。 出 于 练习 的 目的 , 可 以 简单 地 假设 一 个 词 由 正则 表达 式 r"\w+" 确 定 ( 第 


2 章 的 问题 )。 


solution-counter.py 


import urllib.request, re 
from collections import Counter 


# 建立 与 用 户 以 及 与 网 络 的 会 话 
url = input("Enter the URL: ") 
try: 
page = urllib,.request.urlopen(url) 
except: 
print("Cannot open %s" % url) 
quit() 


# 读 取 页 面 ， 并 完成 部 分 规范 化 操作 
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doc = page.read().decode().lower() 


# 将 文本 切 分 为 词语 
words = re.findaLLCr" w+"，doc) 


# 构建 计数 器 并 给 出 结果 
print(Counter(words).most common(10)) 


口 失效 链接 检测 器 
编写 一 个 程序 ， 基 于 一 个 给 定 网 页 的 URL， 报 出 页 面 中 失效 链接 的 名 称 和 地 址 。 出 于 练 


习 的 目的 ， 约 定 当 使 用 urLLib, request.urlopen() 打 开 链 接 失 败 时 ， 则 认为 链接 失效 
(第 3 章 的 问题 )。 








solution-broken_link.py 


import urllib.request, urllib.parse 
import bs4 as BeautifulSoup 


# 建立 与 用 户 以 及 与 网 络 的 会 话 
base = input("Enter the URL: ") 


try: 
page = urllib.request.urlopen(base) 
except: 
print("Cannot open %s" % base) 
quit() 
## 准备 SoUup 


soup = BeautifulSoup.BeautifulSoup(page) 


# 提取 和 链接， 并 用 (名称, 网址) 的 元 组 表示 

links = [(link.string, link["href"]) 
for Link in soup.find all("a") 
if link.has attr("href")] 


# 尝试 打开 每 个 链接 
broken = False 
for name, url in links: 
# 将 base 和 链接 目标 组 合 在 一 起 
dest = urllib.parse.urljoin(base, url) 
try: 
page = urllib.request.urlopen(dest) 
page.close() 
except: 
print("Link \"%s\" to \"%s\" is probably broken." % (name, dest)) 
broken = True 


# 显示 好 消息 | 
if not broken: 
print("Page %s does not seem to have broken links." % base) 
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口 MySQL 文 件 索引 器 


编写 一 个 Python 程序 ， 对 于 给 定 文 件 中 的 每 个 单词 ， 记 录 如 下 信息 到 MySQL 数 据 库 中 
单词 本 身 (不 是 词 干 ! )、 单 词 在 文件 中 的 序数 (从 1 开始 )， 以 及 单词 的 词性 标记 。 使 用 
NLTK WordPunct-Tokenizer (参考 第 16 单 元 第 2 小 节 ) 来 识别 单词 。 假 设 这 些 单词 比较 
短 ， 数 据 类 型 可 以 使 用 MySQL 的 TINYTEXT。 设 计数 据 库 模 式 ， 创 建 所 有 必需 的 表 ， 并 在 
正式 开始 编写 Python 代码 之 前 ， 通 过 命令 行 来 试用 一 下 设计 出 来 的 表 (第 4 章 的 问题 )。 
该 解决 方案 由 两 个 文件 组 成 : 一 个 是 设置 表 的 MySQL 脚 本 ， 另 一 个 是 执行 索引 的 Python 
程序 。 

















让 









































solution-mysql_indexer.sql 
CREATE TABLE IF NOT EXISTS indexer(id INT PRIMARY KEY AUTO_INCREMENT, 
ts TIMESTAMP, 
word TINYTEXT, 
position INT, 
pos VARCHAR(8)); 


solution-mysql-indexer.py 
import nltk, pymysql 


infilename = input("Enter the name of the file to index: ") 


# 结合 你 的 My9QL 服 务 器 的 设置 改变 本 行 
conn = pymysql.connect(user="dsuser", passwd="badpasswOrd", db="dsbd") 
cur = conn.cursor() 


QUERY = "INSERT INTO indexer (word,position,pos) VALUES " 
wpt = nltk.WordPunctTokenizer() 


offset = 1 
with open(infilename) as infile: 
# 使 用 增 量 方式 处 理 文本 ， 每 次 处 理 一 行 
# 不 论 如 何 ， 一 个 词 不 可 能 跨行 分 布 
for text in infile: 
# 分 词 并 加 入 P0S 标 签 
pieces = enumerate(nltk.pos tag(wpt.tokenize(text))) 


# 创建 一 个 查询 命令 ; 别 忘 了 要 如 开 待 查询 的 词 | 
words = ["(\"%s\",%d,\"%s\")" % (conn.escape string(w), 
i + offset, 
conn.escape_ string(pos)) 
for (i, (w, pos)) in pieces] 


# 执行 查询 命令 
if words: 
cur.execute(QUERY + ','.join(words)) 


# 移动 词 的 位 置 指针 
offset += len(words) 
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## 提交 更 改 
conn.commit() 
conn.close() 


数组 微分 器 
( 函数 的 ) 部 分 和 近似 等 价 于 ( 函数 的 ) 积分 。 事 实 上 ， 微 积分 理论 就 把 积分 定义 为 无 穷 
小 元 素 的 无 限 求 和 。( 函数 的 ) 2 -arri 近 似 等 价 于 ( 函数 的 ) 导数 。numpy 没 有 


提供 用 于 计算 数组 部 分 差 的 工具 。 请 编写 一 个 程序 ， 对 于 一 个 给 定 的 数组 arr， 计 算数 组 
项 的 部 分 差 。 在 本 练习 ne (第 5 章 的 问题 )。 














solution-difference.py 
import numpy as np 


# 用 于 测试 的 合成 数据 
array = np.random.binomial(5, 0.5, size=100) 


# 计算 数组 部 分 差 : 切片 & 广 播 ! 
diff = array[1:] - array[:-1] 


猫 独 的 捕获 量 


一 个 程序 ,使 用 每 年 加 拿 大 狂 独 的 捕获 量 " 给 出 每 十 年 的 狂 独 捕获 总 量 ， 并 将 结果 按 逆 
| (最 “有 效益 的 ”十 年 排 在 前 面 )。 如 果 cache 目 录 中 不 存在 数据 文件 ， 则 程序 自动 
将 数据 下 载 到 cache 目 录 中 。 如 果 cache 目 录 不 存在 ， 则 程序 将 自动 创建 该 目录 。 程序 将 计 
算 结果 保存 到 doc 目 录 下 的 CSV 文 件 中 。 如 果 doc 目 录 不 存在 , 则 程序 将 自动 创建 该 日 录 ( 第 
6 章 的 问题 )。 
























































solution-lynx.py 


import os, pandas as pd 
import urllib.request 


# 一 些 “ 常 量 ” 

SRC_ HOST = "https://vincentarelbundock.github.io" 

FILE = "/lynx.csv" 

SRC NAME = SRC HOST + "/Rdatasets/csv/datasets" + FILE 
CACHE = "cache" 

DOC = "doc" 


# 在 需要 时 创建 目录 

if not os.path.isdir(CACHE): 
os.mkdir(CACHE) 

if not os.path.isdir(DOC): 
os.mkdir(DOC) 


# 检查 文件 是 否 缓存 ; 如 未 缓存 就 进行 缓存 处 理 





QD vincentarelbundock.github.io/Rdatasets/csv/datasets/lynx.csv 
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if not os.path.isfile(CACHE + FILE) : 


try : 
src = urllib.request.urlopen(SRC_ NAME) 
Lynx = pd.read csv(src) 

except: 
print("Cannot access %f." % SRC NAME) 
quit() 


# 创建 数据 frame 
lynx.to csv(CACHE + FILE) 
else: 
lynx = pd.read csv(CACHE + FILE) 


# 加 入 “decade” 列 
lynx["decade"] = (Llynx['time'] / 10).round() * 10 


## 求 和 并 排序 
by decade = lynx.groupby("decade").sum() 
by_decade = by decade.sort values(by="lynx", ascending=False) 


# 保存 结果 
by _decade["lynx"].to csv(DOC + FILE) 


口 中 心性 的 相关 问题 

从 斯 坦 福 大 网 络 数据 集 " 中 下 载 Epinions.com 网 站 用 户 的 社交 网 络 图 ， 并 提取 出 规模 排名 
第 十 的 社区 。 编 写 一 个 程序 ， 计算 并 显示 第 7 章 中 提 到 的 所 有 网 络 中 心性 度量 之 间 的 两 两 
相关 性 ; 加 入 集聚 系数 可 以 使 问题 变 得 更 加 有 趣 (第 7 章 的 问题 )。 建 议 你 使 用 pandas 的 
frame 来 存储 所 有 中 心性 。 你 可 能 需要 阅读 第 47 单 元 第 2 小 节 来 了 解 如 何 使 用 pandas 计 算 
相关 性 。 


是 否 存 在 强 相关 的 一 对 中 心性 ? 












































solution-centrality.py 


import networkx as nx, community 
import pandas as pd 


# 导入 network 模 块 
G = nx,read adjlist(open("soc-Epinionsi.txt", "rb")) 


# 提取 社区 结构 并 用 Series 保 存 
partition = pd.Series(community.best partition(G)) 





# 找 出 10 个 最 大 社区 的 索引 
top10 = partition.value counts().index[9] 





# 提取 10 大 社 
# 注意 节点 的 标签 是 字符 串 1 

subgraph = partition[partition == top10].index.values.astype('str') 
F = G.subgraph(subgraph) 


风 








GD snap.stanford.edu/data/soc-Epinions1.html 
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# 计算 网 络 的 度量 
df = pd.DataFrame() 
df["degree"] = pd.Series(nx.degree centrality(F)) 
df["closeness"] = pd.Series(nx.closeness centrality(F)) 
df["betweenness"] = pd.Series(nx.betweenness centrality(F)) 
df["eigenvector"] = pd.Series(nx.eigenvector centrality(F)) 
df["clustering"] = pd.Series(nx.clustering(F)) 
人 ## 计算 相关 性 
print(df.corr()) 
-> degree closeness betweenness eigenvector clustering 
; degree 1.000000 90.247377 0.871812 0.738836 0.100259 
今 closeness 0.247377 1.000000 0.169449 0.547228 0.024052 
betweenness 0.871812 0.169449 1.000000 0.527290 -0.015759 
> eigenvector 0.738836 0.547228 0.527290 1.000000 0.143070 
> CLustering 0.100259 0.024052 -0.015759 0.143070 1.000000 
度 中 心性 与 中 介 中 间 性 以 及 特征 矢量 中 心性 呈 强 的 线性 相关 关系 。 
口 美国 派 




















编写 一 个 程序 , 将 美国 的 所 有 州 按 首 字母 分 组 , 并 用 一 个 饼 图 显示 分 组 结果 或 保存 为 PDF 
文件 。 为 了 完成 该 项 目 ， 你 需要 用 到 州 的 名 称 或 其 缩写 的 列表 ， 这 个 列表 可 以 从 命名 网 
站 获取 ”( 第 8 章 的 问题 )。 








solution-states-pie.py 


import pandas as pd 
import matplotlib, matplotlib.pyplot as plt 


def initial (word): 
return word[0] 


# 读 取 州 名 〈 可 以 使 用 任何 你 喜欢 的 数据 源 ! ) 
states = pd.read csv("states.csv", 
names=("State", "Standard", "Postal", "Capital")) 
# 选取 一 种 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


# 绘 

plt.axes(aspect=1) 

states.set index('Postal').groupby(initial).count()['Standard'].plot.pie() 
plt.title("States by the First Initial") 

plt.ylabel("") 


plt.savefig("../images/states-pie.pdf") 





QO www.stateabbreviations.us 
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得 到 的 饼 图 如 下 所 示 : 


States by the First Initial 





口 21 世 纪 标 准 普尔 500 指 数 


编写 一 个 程序 , 给 出 21 志 纪 标 准 普尔 500 指 数 收盘 价 的 一 些 基本 统计 量 : 平均 值 、 标准 差 、 
偏 斜 度 以 及 收盘 价 和 交易 量 之 间 的 相关 性 。 为 了 确定 得 出 的 相关 性 是 否 可 靠 ， 可 以 从 
Yahoo! Finance" 下 载 历史 价格 。 应 注意 , 21 世 纪 是 从 2001 年 1 月 1 日 开始 的 (第 9 章 的 问题 )。 


鉴于 新 下 载 的 数据 不 同 于 本 示例 中 使 用 的 数据 ， 你 的 答案 可 能 也 会 不 同 。 











solution-sap.py 


import pandas as pd 
from scipy.stats import pearsonr 


# 读 取 数据 
sap = pd.read csv("sapXXI.csv").set index("Date") 


人 林 计算 并 给 出 统计 值 的 报告 

print("Mean:", sap["Close"].mean()) 

print("Standard deviation:", sap["Close"].std()) 
print("Skewness:", sap[l"Close"].skew()) 
print("Correlation:\n", sap[l["Close", "Volume"]].corr()) 
_，p = pearsonr(sap["Close"], sap[l"Volume"]) 


print("p-value:", p) 
今 Mean: 1326.35890044 


今 Standard deviation: 332.784759688 
=> Skewness: 0.858098114571 





QD finance.yahoo.com/q/hp?s=^GSP+Historical+Prices 
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> Correlation: 
今 Close Volume 
=> Close 1.000000 0.103846 
> Volume 0.103846 1.000000 
>» p-value: 1.5301705092e-10 


结果 表明 相关 性 是 非常 可 靠 的 ， 但 非常 微不足道 。 
口 MOSN 分 类 


编写 一 个 程序 , 通过 注册 用 户 数量 和 全 球 Alexa 页 面 排名 2， 对 大 量 的 在 线 社交 网 站 进行 
分 类 。 由 于 站 点 的 排名 及 其 大 小 差异 很 大 , 所 以 应 使 用 对 数 尺度 来 进行 聚 类 和 结果 呈现 
(第 10 章 的 问题 )。 



























































solution-mosn.py 


import pandas as pd, numpy as np 
import sklearn.cluster, sklearn.preprocessing 
import matplotlib, matplotlib.pyplot as plt 


# 读 取 数 据 
mosn = pd.read csv('mosn.csv', thousands=',"', 
names=('Name', 'Description', 'Date', 'Registered Users', 
'Registration', 'Alexa Rank')) 
columns = ['Registered Users', 'Alexa Rank'] 


# 删除 有 缺失 数据 和 零 值 的 行 
good = mosn[np.log(mosn[columns]).notnull().all(axis=1)].copy() 


# 有 聚 类 

kmeans = sklearn.cluster.KMeans() 
kmeans.fit(np.log(good[columns])) 
good["Clusters"] = kmeans.labels 


# 找 出 Facebook 
fb = good.set index('Name').ix['Facebook']['Clusters'] 


# 选取 一 种 优美 的 绘图 样式 
matplotlib,.style.use("ggplot") 


# 显示 结果 

ax = good.plot.scatter(columns[0], columns[1], c="Clusters", 
cmap=plt.cm.Accent, s=100) 

plt.title("Massive online social networking sites") 

plt.xscale("1l0g") 

plt.yscale("Llog") 


# 标记 出 最 出 名 的 站 点 
def add abbr(site) : 
if site['CLUsters'] == fb: 
_ = ax.annotate(site["Name"], site[columns], xytext=(1, 5), 





QD en.wikipedia.org/wiki/List_of social networking websites 
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textcoords="offset points", size=8, 
color="darkslategrey") 


good.apply(add abbr, axis=1) 


plt.savefig(",./images/mosn.png") 
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人 ”全面 掌握 用 Python 进 行 代 虫 抓 取 以 及 数据 清洗 与 分 析 的 方法 ， 人 “去 编程 经 验 也 可 学 会 用 最 火 的 Python 语言 掌握 数据 分 析 
轻松 实现 高 效 数 据 处 理 


《Python 科学 计算 基础 教程 》 《Python 数据 挖掘 入 门 与 
实践 》 
作者 : Hemant Kumar Mehta 


作者 : Robert Layton 
译 者 : 陶 俊 杰 陈 小 莉 





译 者 : 杜 春晓 





Python 数据 挖掘 
入 门 与 实践 





4 以 数据 为 基础 ， 通 过 精彩 案例 展示 Numpy 等 科学 计算 模块 的 强 
大 功能 和 广泛 应 用 
令 剖析 Python 关 于 并 行 与 大 数据 计算 的 方法 


令 全面 释放 Python 的 数据 分 析 能 力 ， 轻 松 入 门 数据 挖掘 技术 
并 将 其 应 用 于 实际 项 目 
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人 用 简单 高 效 的 Python 语言 ， 展 示 网 络 数据 采集 常用 手段 ， 
剖析 网 络 表单 安全 措施 ， 完 成 大 数据 采集 任务 ! 


《Python 网 络 编程 (第 3 版 )》 


作者 : Brandon Rhodes 
John Goerzen 





Python 网 络 编 和 
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令 ” 从 应 用 开发 角度 介绍 网 络 编程 基本 概念 、 模 块 以 及 第 三 方 库 
令 利用 Python 轻松 快速 打造 网 络 应 用 程序 
令 Python 3 示例 讲解 
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《Python 数据 分 析 实 战 》 
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